seo经验杂谈

百度蜘蛛抓取各类网页的频率各不相同

发布日期:2014-06-21 浏览次数:1321

  “如果站点地图上的链接超过 100 个,则需要将站点地图拆分为多个网页。”有些人把这句话理解为:“爬虫只能抓取前 100 个链接”,这是不对的。

  因为在“待抓取列表”里的 URL,爬虫并不会每一个链接都会抓取的。 链接放在这个列表里是没问题的,但是爬虫没有那么多时间也没必要每个链接都要去抓取,需要有一定的优先级。在“待访问列表”里,爬虫一边按照优先级抓取一部分的 URL,一边把还未被抓取的 URL 记录下来等待下次抓取,只是这些还未被抓取的 URL,下次爬虫来访问的频率就每个网站都不一样了, 每一类 URL 被访问的频率也不一样。

  那么在“待抓取列表”里的 URL,哪些是能被优先抓取,哪些是被次要抓取的呢?

  我们稍微思考一下都能明白这个抓取的优先级策略应该怎么定。首先,那些目录层级比较深的 URL 是次要抓取的;那些在模板部分的或重复率非常高的 URL 是被次要抓取的;那些动态参数多的 URL 是次要抓取的.

  这么做的原因,就是因为搜索引擎的资源是有限的,一个网站实际拥有的内容也是有限的,但是 URL 数量是无限的。爬虫需要一些“蛛丝马迹”来确定哪些值得优先抓取,哪些不值得。

相关文章

·SEO常用工具分享
·网站底部加锚文本是否优化过度
·始终不上首页应该怎么做优化
·网站设计中如何加强SEO技术及策略分析
·论坛发帖的小技巧
·搜索引擎优化作弊的常见形式
·站点搜索引擎排名优化关键点
·企业网站推广中搜索引擎优化策略
·最新SEO网络营销可以运用的技巧
·SEO对于档案网站的重要意义