上篇文章我们大概介绍了搜索引擎工作原理,与我们关系最大的还是搜索引擎的预处理规则,他的规则是什么呢?
搜索引擎蜘蛛抓取的原始页面,并不能直接用于查询排名处理,搜索引擎数据库中的页面都在数万亿级别以上,用户输入搜索词后,靠排名程序实习对这么多页面分析相关性,计算量太大,不可能在一两秒内返回结果,所以必须对抓取来的页面进行预处理,为最后的查询排名做好准备。
搜索引擎预处理-九大规则
1、提取文字
2、中文分词
3、去停止词
4、去处噪音
5、去重
6、正向索引
7、倒序索引
8、链接关系计算
9、特殊文件处理
搜索引擎工作原理(预处理)
1、提取文字
现在的搜索引擎还是以文字内容为基础,蜘蛛抓取到的页面中的HTML代码,除了用户在浏览器上可以看到的可见文字处,还包含了大量的HTML格式标签,JavaScript程序等无法用于排名的内容,搜索引擎预处理首先要做的就是从HTML文件中去除标签、程序,提取出可以用于排名处理的网页面文字内容。
比如这段代码:
Title=“Permanent Link to 今天愚人节哈”>今天愚人节哈
除去HTML代码后,剩下的用于排名的文字只有这一句:今天愚人节哈
2、中文分词
分词是中文搜索引擎特有的步骤。搜索引擎存储和处理页面及用户搜索都是以词为基础的。英文等语言单词与单词之间有空格分隔,搜索引擎索引程序可以直接把句子划分为单词的集合。而中文词与词之间没有任何分隔符,一个句子中所有字和词都是连在一起的。搜索引擎必须首先分辨哪几个词组成一个词,哪些字本身就是一个词。比如“公务员考试”将被分词为“公务员”和“考试”两个词。
中文分词方法基本上有两种,一种是基于词典匹配,另一种是基于统计。
基于词典匹配:将待分析的一段汉字与一个事先选好的词典中的词条进行匹配,在待分析汉字串中扫描到词典中已有一词条匹配成功,或者说切他出一个单词。
基于统计匹配:分析大量文字样本,计算机出字与字相邻出现的统计概率,几个字相邻出现越多,就越可能形成一个单词。基本统计的方法的优势是对新出现的词反应更快速,有利于消除歧义。
3、去停止词
无论是英文还是中文,页面内容中都会有一些出现频率很高,却对内容没有任何影响的词,如“的”、“地”、“得”之类的助词,“阿”、“哈”、“呀”之类的感叹词,“从而”、“以”、“却”之类的副词或介词。这些词被称为停止词,因为它们对页面的主要意思没什么影响。英文中的常见停止词有the,a,an,to,of等。
搜索引擎在索引页面之前会去掉这些停止词,使索引数据主题更为突出,减少无谓的计算量。
4、去除噪音
绝大部分页面上还有一部分内容对页面主题也没有什么贡献,比如版权声明文字,导航条、广告等。以常见的博客导航为例,几乎每个博客页面上都会出现文章分类、历史存档等导航内容,这些页面本身与“分类”、“历史”这些词都没有任何关系。用户搜索“历史”、“分类“这些关键词时仅仅因为页面上有这些词出现而返回博客贴子是毫无意义的,完全不相关。所以这些区城都司于噪声,对页面主题只能起到分散作用。
搜索引擎需要识别并消除这些噪声,排名时不使用噪声内容。消噪的基本方法是根据HTML标签对页面分块,区分出页头、导航、正文、页脚、广告等区域,在网站上大量重复出现的区块往往属于噪声。对页面进行消噪后,剩下的才是页面主体内容。
5、去重
去重的基本方法是对页面特征关系词计算指指纹,也就是说从页面主体内容中选取最有的一部分关键词(经常是出现频率最高的关系词),然后计算这些关键词的数字指纹。这些关键词选取是在分词、去停止词、消噪之后。通常选取10个特征关键词就可以达到比较高的计算准备性,再选取更多词对去重准确性提高的贡献也就不大了。
简单的增加“的”“地”“得”调换文字段落的位置等伪原创的方法并不能逃避搜索引擎去重的算法。
6、正向索引
7、倒序索引
8、链接关系计算
页面上有哪些链接指向哪些其他页面,每个页面有哪些导入链接,链接使用了什么锚文字,这些复杂的链接指向关系形成了网站和页面的链接权重。
9、特殊文件处理
除了HTML文件外,搜索引擎通常还能抓取和索引以文字为基础的多种文件类型,如PDF、Word、WPS、XLS、PPT、TXT文件等。我们在搜索结果中也经常会看到这些文件类型。但目前的搜索引擎还不能处理图片、视频、Flash这类非文字内容,也不能执行脚本和程序。
虽然搜索引擎在识别图片及从Flash中提取文字内容方面有些进上,不过距离直接靠读取图片、视频、Flash内容返回结果的目标还很远。对图片、视频内容的排名还往往是依据与之相关的文字内容。
以上就是SEO网站优化搜索引擎预处理规则,对SEO网站优化感兴趣,欢迎持续关注。每天更新……