seo经验杂谈

索引的抓取文字和分词原理

发布日期:2013-03-21 浏览次数:2922

  在习惯上,合肥seo把“预处理”也被简称为“索引”,因为索引是预处理最主要的步骤。


  搜索引擎蜘蛛抓取的原始页面,井不能直接用于查询排名处理。搜索引擎数据库中的页面数都在数万亿级别以上,用户输入搜索词后,靠排名程序实时对这么多页面分析相关性,计算量太大,不可能在一两秒内返回排名结果。因此抓取来的页面必须经过预处理,为最后的查询排名做好准备。


蜘蛛索引流程


  和爬行抓取一样,预处理也是在后台提前完成的,用户搜索时感觉不到这个过程。


  1.提取文字


  现在的搜索引擎还是以文字内容为基础.蜘蛛抓取到的页面中的HTML代码,除了用户在浏览器上可以看到的可见文字外,还包含了大量的HTML格式标签、JavaScript程序等无法用于排名的内容。搜索引擎预处理首先要做的就是从HTML文件中去除标签、程序,提取出可以用于排名处理的网页面文字内容。


  除了可见文字,搜索引擎也会提取出一些特殊的包含文字信息的代码,如Meta标签中的文字、图片替代文字、Flash文件的替代文字、链接锚文字等.


  2.中文分词


  分词是中文搜索引擎特有的步骤。搜索引擎存储和处理页面及用户搜索都是以词为基础的。英文等语言单词与单词之间有空格分隔,搜索引擎索引程序可以直接把句子划分为单词的集合.而中文词与词之间没有任何分隔符,一个句子中的所有字和词都是连在一起的。搜索引擎必须首先分辨哪几个字组成一个词,哪些字本身就是一个词。比如“减肥方法”将被分词为“减肥”和“方法”两个词。

相关文章

·外链建设合理搭配锚文本和纯文本链接
·基于seo技术的中小网站内容设计
·首页排名中悲剧的第七位
·网站优化要从哪些方面着手
·网站内容的建设策略
·浅谈搜索引擎排序算法
·搜索引擎优化的重要性
·移动互联网广告营销发展新趋势
·浅谈Google百宝箱的应用
·不同的搜索引擎有哪些区别