什么是robots协议

2019-03-20 23:35 阅读 224 views 次 评论 0 条

什么是robots协议呢?robots协议也称作爬虫协议,机器人协议等。网站通过robots协议告诉搜索引擎哪些页面可抓取,哪些页面不可抓取。当你网站里的某些内容不希望被搜索引擎抓取和收录时,可以设置robost协议。

robots协议是一个协议文件,即robots.txt文件。当某个搜索蜘蛛去访问一个站点时,它会先检查该站点根目录是否存在robots.txt文件,如有存在,搜索蜘蛛只能访问没被限制抓取的页面。

Robots协议

为什么要做robots呢

1.保护网站隐私信息,防止信息泄漏,网站后台,用户信息等等。

2.有效的屏蔽垃圾页面和重复页面。

3.也能屏蔽死链的抓取。

robots写法规则

1.Disallow: 禁止抓取。 如禁止抓取整个网站则写法:Disallow:/

禁止抓取某个具体网页,则:Disallow:网页.html

2.Allow: 允许抓取。

如要禁止抓取SEO1-SEO50,但是又允许抓取SEO20,则:

Disallow:/SEO

Allow:/SEO20/

其中我们又想禁止抓取SEO20下面的文件SEO.html,则写法为:

Disallow:/SEO

Allow:/SEO20/

Disallow:/SEO20/ SEO.html

3.*:通配符,匹配0或者多个任意字符。

4.$:终止符,例如: Disallow: /*.js$

5.User-agent:Googlebot 指定对谷歌爬虫生效

6.User-agent:* 指定对所有爬虫生效

7.屏蔽js ,写法:

User-agent: *

Disallow: /*.js$

8.屏蔽css,则

User-agent: *

Disallow: /*.css$

9.Allow: /SEO优化/ 这里定义是允许爬取SEO优化目录下面的目录。

10.Allow: /SEO优化 这里定义是允许爬寻SEO优化的整个目录

11.Allow: .htm$ 仅允许访问以".htm"为后缀的URL

12.Allow: .gif$ 允许抓取网页和gif格式图片。

13.Sitemap: /sitemap.html 告诉爬虫这个页面是网站地图

注意事项:

1.书写要在英文状态下的符号。

2.英文状态下的符号。

3.首个字母要大写。

为了网站安全和隐私考虑,我们都应该学会设置自己网站的robots协议,这样搜索引擎才会根据其协议权限来相对应的抓取和收录,从而达到保障网站的隐私和相关数据。

版权声明:本文著作权归原作者所有,欢迎分享本文,谢谢支持!
转载请注明:什么是robots协议 | 蔡籽博客
分类:SEO教程 标签:

发表评论


表情