什么是robots协议呢?robots协议也称作爬虫协议,机器人协议等。网站通过robots协议告诉搜索引擎哪些页面可抓取,哪些页面不可抓取。当你网站里的某些内容不希望被搜索引擎抓取和收录时,可以设置robost协议。
robots协议是一个协议文件,即robots.txt文件。当某个搜索蜘蛛去访问一个站点时,它会先检查该站点根目录是否存在robots.txt文件,如有存在,搜索蜘蛛只能访问没被限制抓取的页面。

为什么要做robots呢
1.保护网站隐私信息,防止信息泄漏,网站后台,用户信息等等。
2.有效的屏蔽垃圾页面和重复页面。
3.也能屏蔽死链的抓取。
robots写法规则
1.Disallow: 禁止抓取。 如禁止抓取整个网站则写法:Disallow:/
禁止抓取某个具体网页,则:Disallow:网页.html
2.Allow: 允许抓取。
如要禁止抓取SEO1-SEO50,但是又允许抓取SEO20,则:
Disallow:/SEO
Allow:/SEO20/
其中我们又想禁止抓取SEO20下面的文件SEO.html,则写法为:
Disallow:/SEO
Allow:/SEO20/
Disallow:/SEO20/ SEO.html
3.*:通配符,匹配0或者多个任意字符。
4.$:终止符,例如: Disallow: /*.js$
5.User-agent:Googlebot 指定对谷歌爬虫生效
6.User-agent:* 指定对所有爬虫生效
7.屏蔽js ,写法:
User-agent: *
Disallow: /*.js$
8.屏蔽css,则
User-agent: *
Disallow: /*.css$
9.Allow: /SEO优化/ 这里定义是允许爬取SEO优化目录下面的目录。
10.Allow: /SEO优化 这里定义是允许爬寻SEO优化的整个目录。
11.Allow: .htm$ 仅允许访问以".htm"为后缀的URL。
12.Allow: .gif$ 允许抓取网页和gif格式图片。
13.Sitemap: /sitemap.html 告诉爬虫这个页面是网站地图。
注意事项:
1.书写要在英文状态下的符号。
2.英文状态下的符号。
3.首个字母要大写。
为了网站安全和隐私考虑,我们都应该学会设置自己网站的robots协议,这样搜索引擎才会根据其协议权限来相对应的抓取和收录,从而达到保障网站的隐私和相关数据。