seo经验杂谈

搜索引擎在索引页面之前会有去停止词和消除噪声的处理

发布日期:2013-03-22 浏览次数:2652

  去停止词


  无论是英文还是中文,页面内容中都会有一些出现频率很高,却对内容没有任何影响的词,如“的”、“地”、“得”之类的助词,“啊”、“哈”、“呀”之类的感叹词,“从而”、“以”、“却”之类的副词或介词。这些词被称为停止词,因为它们对页面的主要意思没什么影响。英文中的常见停止词有the, a, an, to, of等。


  合肥SEO感慨搜索引擎擎在索引页面之前会去掉这些停止词,使索引数据主题更为突出,减少无谓的计算量。


搜索引擎集锦


  消除噪声


  绝大部分页面上还有一部分内容对页面主题也没有什么贡献,比如版权声明文字、导航条、广告等。以常见的博客导航为例,几乎每个博客页面上都会出现文章分类、历史存档等导航内容,但是这些页面本身与“分类”、“历史”这些词都没有任何关系‘用户搜索“历史”、“分类”这些关键词时仅仅因为页面上有这些词出现而返回博客帖子是毫无意义的,完全不相关。所以这些区块都属于噪声,对页面主题只能起到分散作用。


  搜索引擎需要识别并消除这些噪声,排名时不使用噪声内容.消噪的基本方法是根据HTML标签对页面分块,区分出页头、导航、正文、页脚、广告等区域,在网站上大量重复出现的区块往往属于噪声。对页面进行消噪后,剩下的才是页面主体内容。

相关文章

·网站维护体系的优化
·搜索引擎优化的价值是怎样
·搜索引擎的工作原理与发展现状
·用户原创内容和社群加速了SEO搜索引擎的变革?
·网站域名对搜索引擎的影响
·网站主机对搜索排名的影响
·基于关键词效能的搜索引擎优化策略分析
·初步介绍服务器网络带宽
·基于关键词的搜索引擎优化
·简要介绍百度Sitemap