告诉你什么叫关键词优化预处理

2018-06-21 09:52

导读告诉,你,什么,叫,关键词,优化,预处理,最后,

最后抓取抓取过程后，已经把所有你想要爬回，接下来的工作将Web内容，包含进程的数量的数据指标，这是一部分。与爬网一样，预处理在后台预先执行。

.1、关键字提取

搜索引擎是主要是识别技术还是文本。网页爬行的蜘蛛，因为这样的JavaScript、CSS、DIV标签，但向下爬的HTML代码数量大，这些排名是没有意义的。第一个工作，从、删除HTML标签、程序，它是提取网页中的文本。

2、删除停用词

“到”、多次在网页中，如“收购”，可能会显示、同样的一句话，“到”、“在”、“哦”、“是”、“但是，”、“驯服“”不是“无用的话语在重复的表象中是值得的。这些词语会停止使用并谨慎使用它们。

3、分词技术

字是中国的搜索引擎的独特技术，对中国和德国的区别是它的信息：我使用之间，字的中国英语由无空格隔开的话。为兄弟和效率、的姐妹断字的，直接影响到整个系统的效率，“我的兄弟姐妹”，“”、‘I’、“、的：搜索引擎，小细胞，如整个句子·必须断开与单词的连接。

分词，也有基于基于字符串匹配的统计和分词分词的两种主要方式。

、基于单词匹配的分词

取决于不同的匹配的方向，它可分为向前匹配，在相反的方向匹配和最小切割字。这三种方法可以在两个匹配RMM 0X1776和0X1776和0X1776最小匹配正反匹配前进最大的最小值的组合使用。

正向最大匹配：根据切断中国的第一个特征词和标点符号的中国语的说法，假设在字典的字米的最长的单词，拿起在M-词短语，词数据库的前除去最后的希望存在于米字，而这个字的输出，如果这个词短语已移出，字的其余部分，如果没有您要检查它是否是一个字的任何字，如果没有，如果有的话，以你删除单词短语是输出的话，重复这个词，以确认是否存在于字体，需要重复第一个短语的其余部分的米字的。通过这种方式，您可以将短语分成单词组合。反向最大匹配：句子末尾的分割方式。反向最大匹配技术的最大影响之一是消除歧义。远期，如“富营销线上的下一个镇城子召开的党”的最大匹配的结果：在一次聚会/ /城子町/位置/ AT丰富/营销/线/上/下，它是可怜在学生中，这种模糊性是显而易见的。下城子镇是一个地名，它没有正确拆分。可以使用使用反向最大匹配的技术来纠正此错误。例如，当不确定性消除，字节点大小，那么显然隔离“持有”，“抱下城子城”最后剩下的“城子镇的下一个党”，7套。

一般来说，它很少使用，匹配实际使用的精度，因此它高于前向和后向匹配：正向/反向最小匹配的最小匹配。

B 0 x 1776基于统计分词方法

直接调用分为多个字典单词匹配，并使用统计方法识别新单词，所有统计结果用于重现最有效的切割单词我会的。

单词词典是基于搜索引擎判断的单词基本上是汉语词典，所有单词的集合。当我们在搜索引擎中输入“我想减肥”时，“饮食”这个词被判断为一个单词。现在，在许多情况下，这样的“好推”、“建立”，一些构建的网络的新流行词和其他这样的话，就还包括慢慢网络它显示。更新分词词典仅为了满足日常搜索判断的需要。

4去除噪声：不同类型的广告文字，广告图像、、、是，有诸如网页上登录框版权信息，因为某种目的的立了起来，给他们的东西直接它对于可以删除的搜索引擎没有用。

转发排名：为了建立倒排文件5.在分析页面页面上每个关键字的出现频率时，关键字提取前的一些步骤将页面转换为关键字组合出现在、、数字格式0X1776，、的重量每个关键字格式也是、频率位置信息的位置之后，将被重新记录的各页上，以便它可以被记录为关键字的串联组合，

反向索引：转发索引不能直接用于排名。仅向前，索引，排序过程中，关键字3，然后，找到包含相关测算，如果您需要扫描索引，用户，谁搜索关键字3中的所有文件的文件情况。这样，计算结果不能实时返回排名结果。因此，搜索引擎转发倒排索引，索引数据库重建为索引关键字倒排索引6、链接关系计算：链接关系计算是预处理的重要步骤。主流搜索引擎排名元素包含网页之间的链接流信息。之前，您需要计算链接使用哪个锚文本，将页面上的哪些链接导入到其他页面，哪些链接导入到每个页面。 Google PR是此类链接关系计算的重要代表之一。

7.特殊文件处理：可以根据文本对多种文件类型进行爬网和索引。

免责声明：本文章由会员“网络”发布如果文章侵权，请联系我们处理，本站仅提供信息存储空间服务如因作品内容、版权和其他问题请于本站联系

标签：