欢迎您光临本站,如有问题请及时联系我们。唯一指定客服QQ:1518918268

SEO如何学懂关键词分词技术?

    热度:℃      作者:互联网

如何在seo中做好分词?分词怎么才能让搜索引擎满意?什么是百度分词?SEO是否接触到一些分词组件?从百度分词中不难看出,分词是根据词义、词和词频的方式来决定搜索引擎对词的抓取。

SEO如何学懂关键词分词技术?

中文分词一般包括字符串匹配、统计分词和词义分词。

第一种类型:字符串匹配分词

这种分词技术也叫机械分词法,就是扫描字符串。如果查询页面中的子串和单词相同,则视为匹配。这类分词通常会加入启发式规则,如正向/反向最大匹配、长词优化等。

优点:匹配速度快,实现过程简单

缺点:歧义词难以区分,匹配不准确

案例:我对牛分词的理解是基于字符串匹配的分词

例子:成都网络推广公司

“成都,成都网络,推广,公司”“成都,推广网络,公司”

向前最大匹配:从左到右匹配关键词

反向最大匹配:从右向左匹配关键词

最短路径分词:搜索引擎提取文本中最少的单词

SEO关键词分词技术

第二种:统计分词

这种分词是基于人工标注的词性和统计特征,对中文进行建模,即根据观察到的数据(标注语料库)估计模型参数,即训练。在分词阶段,通过模型计算各种分词出现的概率,以概率最高的分词结果作为最终结果。常见的序列标注模型有HMM和CRF。

优点:可以很好的处理歧义和未知词的问题,效果优于基于字符串匹配的

缺点:需要大量人工标注数据,分词速度慢

相邻词同时出现的次数越多,就越有可能形成一个词。因此,词与词共现的频率或概率更能反映一个词的可信度。

我们可以统计语料库中相邻词组合的频率,并计算它们的互现信息。定义两个汉字的共现信息,计算两个汉字X和Y的相邻共现概率。互信息反映了汉字之间的密切关系。

第三种:分词

词义切分:由机器语音确定的一种分词方法,主要用于处理歧义。

来源:本文由互联网原创撰写,欢迎分享本文,转载请保留出处和链接!部分信息来源互联网,如有侵权,请联系删除。