seo经验杂谈

搜索引擎在索引页面之前会有去停止词和消除噪声的处理

发布日期:2013-03-22 浏览次数:2785

  去停止词


  无论是英文还是中文,页面内容中都会有一些出现频率很高,却对内容没有任何影响的词,如“的”、“地”、“得”之类的助词,“啊”、“哈”、“呀”之类的感叹词,“从而”、“以”、“却”之类的副词或介词。这些词被称为停止词,因为它们对页面的主要意思没什么影响。英文中的常见停止词有the, a, an, to, of等。


  合肥SEO感慨搜索引擎擎在索引页面之前会去掉这些停止词,使索引数据主题更为突出,减少无谓的计算量。


搜索引擎集锦


  消除噪声


  绝大部分页面上还有一部分内容对页面主题也没有什么贡献,比如版权声明文字、导航条、广告等。以常见的博客导航为例,几乎每个博客页面上都会出现文章分类、历史存档等导航内容,但是这些页面本身与“分类”、“历史”这些词都没有任何关系‘用户搜索“历史”、“分类”这些关键词时仅仅因为页面上有这些词出现而返回博客帖子是毫无意义的,完全不相关。所以这些区块都属于噪声,对页面主题只能起到分散作用。


  搜索引擎需要识别并消除这些噪声,排名时不使用噪声内容.消噪的基本方法是根据HTML标签对页面分块,区分出页头、导航、正文、页脚、广告等区域,在网站上大量重复出现的区块往往属于噪声。对页面进行消噪后,剩下的才是页面主体内容。

相关文章

·合肥seo提出的十条优化建议
·用户体验和搜索引擎优化的关系
·中小企业网站优化面临的问题
·非链接形式的链接对SEO的影响引发的思考
·网站结构优化模型及算法设计
·合理内链建设的四大秘籍 避免权重流失
·一天内不同蜘蛛的访问次数
·网站导航URL的处理
·企业网站设计关键字时应避免的误区
·优化网站的几个重要步骤