SEO如何学懂关键词分词技术?
如何在seo中做好分词?分词怎么才能让搜索引擎满意?什么是百度分词?SEO是否接触到一些分词组件?从百度分词中不难看出,分词是根据词义、词和词频的方式来决定搜索引擎对词的抓取。
中文分词一般包括字符串匹配、统计分词和词义分词。
第一种类型:字符串匹配分词
这种分词技术也叫机械分词法,就是扫描字符串。如果查询页面中的子串和单词相同,则视为匹配。这类分词通常会加入启发式规则,如正向/反向最大匹配、长词优化等。
优点:匹配速度快,实现过程简单
缺点:歧义词难以区分,匹配不准确
案例:我对牛分词的理解是基于字符串匹配的分词
例子:成都网络推广公司
“成都,成都网络,推广,公司”“成都,推广网络,公司”
向前最大匹配:从左到右匹配关键词
反向最大匹配:从右向左匹配关键词
最短路径分词:搜索引擎提取文本中最少的单词
第二种:统计分词
这种分词是基于人工标注的词性和统计特征,对中文进行建模,即根据观察到的数据(标注语料库)估计模型参数,即训练。在分词阶段,通过模型计算各种分词出现的概率,以概率最高的分词结果作为最终结果。常见的序列标注模型有HMM和CRF。
优点:可以很好的处理歧义和未知词的问题,效果优于基于字符串匹配的
缺点:需要大量人工标注数据,分词速度慢
相邻词同时出现的次数越多,就越有可能形成一个词。因此,词与词共现的频率或概率更能反映一个词的可信度。
我们可以统计语料库中相邻词组合的频率,并计算它们的互现信息。定义两个汉字的共现信息,计算两个汉字X和Y的相邻共现概率。互信息反映了汉字之间的密切关系。
第三种:分词
词义切分:由机器语音确定的一种分词方法,主要用于处理歧义。
来源:本文由互联网原创撰写,欢迎分享本文,转载请保留出处和链接!部分信息来源互联网,如有侵权,请联系删除。