搜索引擎蜘蛛爬虫原理及算法解读

2019-03-09 19:59 阅读 1,832 views 次 评论 0 条

一、蜘蛛的定义

了解搜索引擎蜘蛛爬虫原理,对我们进行网站SEO优化起到很大的作用。搜索引擎用来爬行和抓取页面的程序或脚本被称为蜘蛛或爬虫。搜索引擎蜘蛛访问网站类似于用户使用浏览器。搜索引擎为了提高爬行和抓取速度,都使用多个蜘蛛并行发布爬行。蜘蛛在抓取网站页面时,都是从一个页面到下一个页面,类似蜘蛛爬网一样,这也是搜索引擎蜘蛛这个名称的由来。蜘蛛爬虫不断地在互联网上爬行并抓取页面内容将其筛选存放入数据库内。

蜘蛛在访问每个网站时,都是先访问网站根目录下的robots.txt文件,如不想被蜘蛛抓取,则将robots.txt文件禁止抓取。

蜘蛛爬虫原理

二、常见的蜘蛛

1.百度蜘蛛:BaiduSpider

2.谷歌蜘蛛:Googlebot

3.360蜘蛛:360Spider

4.谷歌机器人:Googlebot

5.搜狗蜘蛛:Sogou News Spider

蜘蛛爬虫原理

三、蜘蛛抓取规则

由于网站及页面链接结构异常复杂,蜘蛛在爬行时需要采取一定的爬行策略才能遍历所有页面。蜘蛛爬行遍历策略有两个:深度优先策略和广度优先策略。

深度优先策略,如下图,蜘蛛爬行规则是从首页爬行到栏目1、子栏目1、内容1,到内容1页面已经没有其他链接可以跟踪就返回首页。然后顺着栏目2继续往下走。在这个过程中,蜘蛛一直爬到无法再向前,才返回爬另一条线。

蜘蛛爬虫原理
深度优先策略

广度优先策略,如下图,蜘蛛爬行规则是从首页爬行到栏目1、栏目2、栏目3,直到页面上的所有链接都爬行完,然后再从栏目1发现的下一层链接再爬行内容1、内容2、内容3页面。

蜘蛛爬虫原理
广度优先策略

四、抓取的内容

蜘蛛会抓取什么样的内容呢?简单来说就是搜索引擎能识别的内容,即链接(抓取方式),文字(识别度高),图片(现在有专门抓取图片的蜘蛛,可给图片加上ALT属性)。不可识别的视频,JS等尽量不要出现,会影响蜘蛛的抓取。搜索引擎在爬取你的网页以后,通过对网页内容进行筛选,如果内容符合收录规则,就将网页加入自己的数据库。有了收录之后,当用户查询相关内容时,这个网页就会出现搜索结果。原理如图:

搜索引擎工作原理

五、影响蜘蛛的抓取

1.需要权限才能打开,比如需要登录才能打开查看。

2.路径过长,层次太深,一般抓取路径字符255个字符,层次超过5层。

3.Robots文件屏蔽。

4.网站打不开,比如404死链,网站被黑等。

六、怎么判断蜘蛛有没有来到网站

1.服务器日志查看。

2.通过搜索引擎站长平台查看。

七、 查看收录

1.单个页面,百度一下网址。

2.整个网站,site:域名

3.注意:有收录才有排名。

八、收录常见问题

1.新站一个月内收录很慢或是只在收录首页,考虑是否是网站的质量问题和信任度问题。

2.长久没有更新网站,突然更新一篇文章这样的一个页面长达一个月或是一个半月才有可能被收录。

3.需要搜索引擎养成一个习惯需要两个月时间。

4.禁止首页做成flash,用大量的图片组成首页,把导航做成图片的链接等。

了解了蜘蛛爬取和抓取原理,以及网站收录上的问题后,希望对大家以后做SEO优化有所帮助。

版权声明:本文著作权归原作者所有,欢迎分享本文,谢谢支持!
转载请注明:搜索引擎蜘蛛爬虫原理及算法解读 | 蔡籽博客
分类:SEO教程 标签:

发表评论


表情