seo经验杂谈

简介搜索引擎的去重和正向索引工作原理

发布日期:2013-03-25 浏览次数:2240

  搜索引擎会对页面进行去重处理


  同一篇文章经常会重复出现在不同网站及同一个网站的不同网址上,搜索引擎并不喜欢这种重复性的内容。用户搜索时,如果在前两页看到的都是来自不同网站的同一篇文章,用户体验就太差了,虽然都是内容相关的。搜索引擎希望只返回相同文章中的一篇,所以在进行索引前还需要识别和删除重复内容,这个过程就称为“去重”,这也是为什么我们合肥seo如此强调文章的原创性的原因。


  去重的基本方法是对页面特征关键词计算指纹,也就是说从页面主体内容中选取最有代表性的一部分关键词(经常是出现频率最高的关键词),然后计算这些关键词的数字指纹。这里的关键词选取是在分词、去停止词、消噪之后。实验表明,通常选取10个特征关键词就可以达到比较高的计算准确性,再选取更多词对去重准确性提高的贡献也就不大了。


  正向索引也可以简称为索引


  经过文字提取、分词、消噪、去重后,搜索引擎得到的就是独特的、能反映页面主体内容的、以词为单位的内容。接下来搜索引擎索引程序就可以提取关键词,按照分词程序划分好的词,把页面转换为一个关键词组成的集合,同时记录每一个关键词在页面上的出现频率、出现次数、格式(如出现在标题标签、黑体、H标签、锚文字等)、位置(如页面第一段文字等)。这样,每一个页面都可以记录为一串关键词集合,其中每个关键词的词频、格式、位置等权重信息也都记录在案。


  每个文件都对应一个文件ID,文件内容被表示为一串关键词的集合。实际上在搜索引擎索引库中,关键词也已经转换为关键词ID。这样的数据结构就称为正向索引。

相关文章

·用户体验和搜索引擎优化的关系
·大量应用 nofollow 的一个实例解说
·中小企业网站优化面临的问题
·网站被挂马了怎么办?
·网站结构优化模型及算法设计
·网站导航URL的处理
·优化网站的几个重要步骤
·一天内不同蜘蛛的访问次数
·那些因过度优化导致的网站降权
·社会性搜索在网站优化中占比日渐加重