SEO优化中网站结构的蜘蛛陷阱有哪些

2019-08-02 14:04 阅读 84 views 次 评论 0 条

许多搭建网站之时的网页设计技术对搜索引擎说很不友好,不利搜索引擎蜘蛛爬行和抓取,这种技术被称作蜘蛛陷阱。    

比较常见的网站结构的蜘蛛陷阱可分为下列的几类: 

一、Flash 

在网页页面的某一小部分应用 Flash提升视觉效果是很正常的,例如用 Flash 制成的广告词、标志等。这类小 Flash 和图片是相同的,只不过是 HTML 代码中的一小部分,网页上也还有其它以文本居多的信息内容,因此对搜索引擎爬取和网站收录并没有很大影响。 但有的网站一整个首页便是1个大的 Flash 文件,这就产生了爬虫陷井。搜索引擎爬取的 HTML 代码仅有一个连向 Flash 文件的连接,并没有其它文本文章内容。搜索引擎是没法读取 Flash 中的文字内容和连接的。网站一整个只运用1个 Flash 的网站,视觉效果精彩特别,只可惜搜索引擎看不见,不可以索引出一切文本信息内容,也就难以判定相关性。许多网站喜欢在首页放一个Flash介绍。用户访问该网站,并在观看介绍后跳转文本网站首页的真正的HTML文件标记语言版本。搜索引擎不可以读取 Flash,一般也无法从 Flash Intro 追踪到 HTML 版本网页。 尽管搜索引擎在此方面有新的提升,但做网站就请别试探爬虫的专业能力。

蜘蛛陷阱
蜘蛛陷阱

二、Session ID 

许多网站应用 Session ID(会话 ID)追踪用户访问,每一用户访问网站时都是生成特唯一性的 Session ID,加进 URL 中。搜索引擎爬虫每一次访问也会被当做1个新的用户,URL 里也会添加1个不同的 Session ID,如此搜索引擎爬虫每一次来访时所获取的同一网页的 URL 将不同,后边跟着1个不同的 Session ID。这同样是最常见的爬虫陷井之一。 搜索引擎遇上这类很长 Session ID,会试着判定字符数组是 Session ID 还是正常基本参数,完成判定出 Session ID 的话,就会够除去 Session ID,进行收录正常的 URL。但也时常判定不出,就会影响收录,有的可能收录好几个含有不同 Session ID 的 URL,文章内容却相同,产生大批量重复文章内容,这两类状况对seo优化都不利。 一般建议追踪用户访问应当应用 cookies 而无需生成 Session ID。使程序判定来访者是用户还是搜索引擎爬虫,假如是搜索引擎爬虫,则不生成 Session ID。追踪搜索引擎爬虫访问是没有作用的,爬虫既不可能填表,也不可能把商品放进购物车。 

三、各种各样跳转 

除了301 跳转之外,搜索引擎对其它方式的跳转都相对敏感,如 302 跳 转、JavaScript 跳转、Flash 跳转、JS代码跳转,Meta Refresh 跳转。 许多网站在用户访问首页时会被自动跳转到某一目录下的网页,假如是按用户所在位置跳转至最适宜的目录,那倒没什么,但绝大多数这类首页跳转看不到任何原因和目的,如此的跳转能规避则规避。 假如必须跳转,301 跳转是搜索引擎推荐的、用以网址变更的跳转,能够把网页权重值从旧网址转至到新网址。其它跳转方式都对爬虫的爬行不利。因此除非是迫不得已,最好不要应用 301 跳转之外的跳转。

怎样避免蜘蛛陷阱
怎样避免蜘蛛陷阱

四、框架结构 

假如你并不知什么叫框架结构,那麼你很幸运,你已规避了这一蜘蛛陷井,压根没必要性了解什么叫框架结构。假如你现在网站设计中有应用框架结构,蔡籽建议是马上撤销。 

应用框架结构设计网页,在网站问世当初挺盛行,是因为对网站的网页更新系统维护有相应的便捷性。只不过目前的网站早已不怎么应用框架了,不利搜索引擎爬取是框架愈来愈不盛行的关键缘由之一。对搜索引擎而言,访问1个应用框架的网址所爬取的 HTML 只包括调用其它 HTML 文件的代码,并非包括文本信息内容,搜索引擎很难判定这一网址的文章内容有什么。

尽管爬虫能够追踪框架中所调用的其它 HTML 文件,但这种文件时常并不是完整的网页,例如并没有导航,仅是正文。搜索引擎也没法判定框架中的网页文章内容应当隶属于主框架,或是隶属于框架调用的文件。 总而言之,如果你的网站有应用框架,或你的老板要应用框架结构,真正要记得的是,忘记应用框架这回事。和 Flash 一样,别耗时间分析如何让搜索引擎收录框架结构网站。 

五、动态 URL 

动态 URL 指的是数据库驱动的网站所生成的含有?= 其它动态参数的网址。通常情况下动态 URL 不利搜索引擎爬虫爬行,应当避免出现。

六、JavaScript 链接 

由于 JavaScript 能够创建出许多吸引人的视觉效果,许多网站喜欢应用 JavaScript 脚本生成网站导航。这同样是较为严重的蜘蛛陷井之一。尽管搜索引擎都会试着解析 JS 脚本,但目前搜索引擎针对这类的识别也是有限,我们应当让搜索引擎追踪爬行的工作上尽可能简单方便。

网站结构的蜘蛛陷阱
网站结构的蜘蛛陷阱

据我分析,尽管有的搜索引擎从技术上说能够获取 JavaScript 脚本中包括的连接,甚至于能分析脚本并追踪连接,但对许多权重值较为低的网站,搜索引擎认为并没有必要性,不可能费那个劲。因此网站上的连接必须应用简单点标准的 HTML 连接,特别是网站导航。用 css 做网站导航相同能够实现许多视觉效果。 JavaScript 连接在 SEO 中也有特殊用途,那便是站长不希望被收录的网页(例如并没有排名作用的网页,重复文章内容网页等),不希望划分权重值的连接,他们通过应用 JavaScript 脚本阻挡搜索引擎爬行。 

七、要求登录或注册

许多网站文章内容放到需用户登录或者注册以后才可以见到的会员区,这些文章内容搜索引擎没法见到。爬虫不会填写用户名、密码,也不可能申请注册。 

八、强制性应用 Cookies 

许多网站为了更好地实现某类功能,如记得用户登录信息内容、追踪用户访问路径等,强制性用户应用 Cookies,用户浏览器要是没有启用 Cookies,网页显示就异常。搜索引擎爬虫就等同于1个禁用了 Cookies 的浏览器,强制性应用 Cookies 只会导致搜索引擎爬虫没法正常访问。 

上面就是对于蜘蛛陷井的小结,也是最常见、最易被大伙儿忽视的地方,值得我们多留意。

版权声明:本文著作权归原作者所有,欢迎分享本文,谢谢支持!
转载请注明:SEO优化中网站结构的蜘蛛陷阱有哪些 | 蔡籽博客
分类:SEO优化 标签:

发表评论


表情