seo经验杂谈

搜索引擎如何判断页面重复内容

发布日期:2015-09-28 浏览次数:977

  虽然知道原创文章的重要性,但是大家也都知道,一篇两篇原创文章没有什么大问题,如果长久的保持网站文章的原创那是一件非常艰难的事情,除非那些大型网站站长的手下有一批专职的写手或者编辑。那么没有这种优渥条件的站长们怎么办呢?只能是伪原创与抄袭。但是伪原创与抄袭来的方法真的有用吗?今天就来和大家分享一下搜索引擎对于重复内容判定方面的知识:

  搜索引擎如何判断页面重复内容?

  1、通用的基本判断原理就是逐个对比每个页面的数字指纹。这种方法虽然能够找出部分重复内容,但缺点在于需要消耗大量的资源,操作速度慢、效率低。

  2、基于全局特征的I-Match

  这种算法的原理是,将文本中出现的所有词先排序再打分,目的在于删除文本中无关的关键词,保留重要关键词。这样的方式去重效果高、效果明显。比如我们在伪原创时可能会把文章词语、段落互换,这种方式根本欺骗不了I-Match算法,它依然会判定重复。

  3、基于停用词的Spotsig

  文档中如过使用大量停用词,如语气助词、副词、介词、连词,这些对有效信息会造成干扰效果,搜索引擎在去重处理时都会对这些停用词进行删除,然后再进行文档匹配。因此,我们在做优化时不妨减少停用词的使用频率,增加页面关键词密度,更有利于搜索引擎抓取。

  4、基于多重Hash的Simhash

  这种算法涉及到几何原理,讲解起来比较费劲,简单说来就是,相似的文本具有相似的hash值,如果两个文本的simhash越接近,文本就越相似。因此海量文本中查重的任务转换为如何在海量simhash中快速确定是否存在。我们只需要知道通过这种算法,搜索引擎能够在极短的时间内对大规模的网页进行近似查重。目前来看,这种算法在识别效果和查重效率上相得益彰。

相关文章

·企业网站设计关键字时应避免的误区
·网站导航URL的处理
·搜索引擎优化步骤
·优化网站的几个重要步骤
·301转向什么情况下使用比较好
·4种典型的链接诱饵手段
·那些因过度优化导致的网站降权
·高质量文章包括哪些因素
·为什么要做搜索引擎优化
·长尾关键词常见的几种形式