最后抓取抓取过程后,已经把所有你想要爬回,接下来的工作将Web内容,包含进程的数量的数据指标,这是一部分。与爬网一样,预处理在后台预先执行。
.1、关键字提取
搜索引擎是主要是识别技术还是文本。网页爬行的蜘蛛,因为这样的JavaScript、CSS、DIV标签,但向下爬的HTML代码数量大,这些排名是没有意义的。第一个工作,从、删除HTML标签、程序,它是提取网页中的文本。
2、删除停用词
“到”、多次在网页中,如“收购”,可能会显示、同样的一句话,“到”、“在”、“哦”、“是”、“但是,”、“驯服“”不是“无用的话语在重复的表象中是值得的。这些词语会停止使用并谨慎使用它们。
3、分词技术
字是中国的搜索引擎的独特技术,对中国和德国的区别是它的信息:我使用之间,字的中国英语由无空格隔开的话。为兄弟和效率、的姐妹断字的,直接影响到整个系统的效率,“我的兄弟姐妹”,“”、‘I’、“、的:搜索引擎,小细胞,如整个句子·必须断开与单词的连接。
分词,也有基于基于字符串匹配的统计和分词分词的两种主要方式。
、基于单词匹配的分词
取决于不同的匹配的方向,它可分为向前匹配,在相反的方向匹配和最小切割字。这三种方法可以在两个匹配RMM 0X1776和0X1776和0X1776最小匹配正反匹配前进最大的最小值的组合使用。
正向最大匹配:根据切断中国的第一个特征词和标点符号的中国语的说法,假设在字典的字米的最长的单词,拿起在M-词短语,词数据库的前除去最后的希望存在于米字,而这个字的输出,如果这个词短语已移出,字的其余部分,如果没有您要检查它是否是一个字的任何字,如果没有,如果有的话,以你删除单词短语是输出的话,重复这个词,以确认是否存在于字体,需要重复第一个短语的其余部分的米字的。通过这种方式,您可以将短语分成单词组合。反向最大匹配:句子末尾的分割方式。反向最大匹配技术的最大影响之一是消除歧义。远期,如“富营销线上的下一个镇城子召开的党”的最大匹配的结果:在一次聚会/ /城子町/位置/ AT丰富/营销/线/上/下,它是可怜在学生中,这种模糊性是显而易见的。下城子镇是一个地名,它没有正确拆分。可以使用使用反向最大匹配的技术来纠正此错误。例如,当不确定性消除,字节点大小,那么显然隔离“持有”,“抱下城子城”最后剩下的“城子镇的下一个党”,7套。
一般来说,它很少使用,匹配实际使用的精度,因此它高于前向和后向匹配:正向/反向最小匹配的最小匹配。
B 0 x 1776基于统计分词方法
直接调用分为多个字典单词匹配,并使用统计方法识别新单词,所有统计结果用于重现最有效的切割单词我会的。
单词词典是基于搜索引擎判断的单词基本上是汉语词典,所有单词的集合。当我们在搜索引擎中输入“我想减肥”时,“饮食”这个词被判断为一个单词。现在,在许多情况下,这样的“好推”、“建立”,一些构建的网络的新流行词和其他这样的话,就还包括慢慢网络它显示。更新分词词典仅为了满足日常搜索判断的需要。
4去除噪声:不同类型的广告文字,广告图像、、、是,有诸如网页上登录框版权信息,因为某种目的的立了起来,给他们的东西直接它对于可以删除的搜索引擎没有用。
转发排名:为了建立倒排文件5.在分析页面页面上每个关键字的出现频率时,关键字提取前的一些步骤将页面转换为关键字组合出现在、、数字格式0X1776,、的重量每个关键字格式也是、频率位置信息的位置之后,将被重新记录的各页上,以便它可以被记录为关键字的串联组合,
反向索引:转发索引不能直接用于排名。仅向前,索引,排序过程中,关键字3,然后,找到包含相关测算,如果您需要扫描索引,用户,谁搜索关键字3中的所有文件的文件情况。这样,计算结果不能实时返回排名结果。因此,搜索引擎转发倒排索引,索引数据库重建为索引关键字倒排索引6、链接关系计算:链接关系计算是预处理的重要步骤。主流搜索引擎排名元素包含网页之间的链接流信息。之前,您需要计算链接使用哪个锚文本,将页面上的哪些链接导入到其他页面,哪些链接导入到每个页面。 Google PR是此类链接关系计算的重要代表之一。
7.特殊文件处理:可以根据文本对多种文件类型进行爬网和索引。