seo经验杂谈

一天内不同蜘蛛的访问次数

发布日期:2014-05-26 浏览次数:1387

  理论上来说,如果一个网页上的内容更新得不是很频繁,那这个网页一天被抓取一次就可以了。对于那种已经被收录而且内容一直不变的页面,一天被抓取一次都太多了。就算是更新很频繁的网页,一天被访问 50 次也完全够了。

  不过实际情况远比理论上的糟糕,就像上面的这个抓取数据,一个无关紧要的页面,百度爬虫一天都能抓取 166 次。大中型网站更糟,有一次我们分析完一个大型网站的数据,发现这个网站爬虫每天的抓取量虽然有 120 多万,但是其中有 16 万次抓取都是在抓首页这么一个网页,可以想象其他网页又有多严重。

  为什么我们要这么在意一个网页被重复抓取的几率呢? 这是因为一个网站中还有很多其他的网页,爬虫压根就抓取不到。哪怕你的网站只有几百个网页,都可能面临着这个问题。

  一个网站如果每个页面平均被重复抓取 10 次,尽管可能爬虫每天的抓取量有 100 万,那也只有 10 万个页面被抓取了。一天之内的情况是如此,时间拉长到一个月内、半年内,情况不会有多大改善。虽然搜索引擎也试图解决重复抓取的状况,但是由于各种原因,会导致今天重复抓取的页面,明天还是会重复抓取的。所以很多的大中型网站,一年下来,还有一半的网页,爬虫压根都没看到过。 如果不是分析了很多网站的数据,很多人都是无法想象情况有这么严重的。

  在抓取量一定的情况下,适当减低一些页面的重复抓取量,那会有更多的其他页面会被抓取到。

  一个网站中,最容易被过度抓取的页面,就是那些经常曝光的页面,导航条上的链接就是经常曝光的。所以 Tradekey 的解决办法很简单,就是在首页这么一个页面上,给爬虫留下入口去抓取导航条上的链接,但是在其他网页上,就把导航条上的链接 nofollow 掉。这样处理,会使导航条上链接的抓取量,从以前被抓取上万次降低到现在被抓取几十次。虽然不能达到理想中的状况,但是也比以前好了非常多.

相关文章

·搜索引擎优化的重要性
·百度百科词条的审核原则
·外链建设合理搭配锚文本和纯文本链接
·主域名与二级域名间的权重纠葛
·基于seo技术的中小网站内容设计
·网站优化要从哪些方面着手
·网站内容的建设策略
·浅谈搜索引擎排序算法
·移动互联网广告营销发展新趋势
·搜索引擎优化的重要性