seo行业资讯

搜索引擎去重算法I-Match流程

发布日期:2013-03-29 浏览次数:2684

  有人将网站编辑的工作总结为ctrl c+ctrl v,因为文章总是抄来抄去。对于搜索引擎而言,正是由于这样的大量复制粘贴操作,给搜索引擎的判断带来了困恼。用户需要找到最有用的信息,如果互联网上有太多的重复信息,非常不利于用户体验。
  据统计表明近似重复页面的数量占据网站总数量的29%,而完全重复页面占据了22%。重复的页面不仅不利于用户查找自己锁需要的信息,对搜索引擎来说占据了很多的资源。为了解决这样的问题,搜索引擎去重算法诞生了。今天合肥网站优化人员更大家一起看看搜索引擎页面去重算法-I-Match算法。
  I-Match算法主要是根据大规模的文本集合进行统计,对于文本中出现的所有单词,按照单词的IDF(逆文本词频因子)来进行由高到低的排序,除去得分最高和得分最低的单词,保留剩下的单词最为特征词典。这一步骤主要是删除文本中无关的关键词,保留重要关键词。下面是I-Match流程示意图:

I-Match流程示意图

 


  获得全局特征词典之后,对需要去重的页面,扫描下就能获得该页面上出现的所有单词,对于这些单词根据特征词典过滤:保留在特征词典上出现的单词,用来表达文档的主要内容,删除没有在特征词典中出现的内容。提取出对应的特征词之后在利用哈希函数对特征词汇进行哈希计算,获得的数值就是该文档的文本指纹。
  所有文档都统计完之后如果想查看两篇文档是否重复只需要查看文档的文本指纹是否近似,如果近似则表示两篇文档重复。这样的比对方式很直观而且效率也很高,去重效果比较明显。
  我们在做网站排名时,总是强调文章的原创,如果是拷贝过来的文章,一定要加强伪原创。很多网站优化人员就直接把文章的词语和段落调换位置,以为这样对于搜索引擎来说,就是一片原创文章。其实不然,I-Match对文档之间的单词顺序并不敏感。当两篇文章中包含的单词一样仅仅是调换了单词的位置,I-Match算法还是将两篇文章认为是重复文章。因此,站长朋友在做网站优化时,要了解I-Match算法基本特征,避免做了无用功。

相关文章

·网站优化要坚持四大更新规律
·立足用户与搜索引擎定位站点Title的价值
·怎样让你的软文成为新闻一样新鲜
·《互联网搜索引擎服务自律公约》出炉
·浅析网站要做好用户体验的核心在哪里
·如何轻松实现所写文章被各大论坛推荐呢?
·什么因素会对网站关键词的排名有影响
·企业关键词选择应从五个方面正确考虑
·SEO从业者应该何去何从
·搜索引擎对网站降权处理的原因