欢迎您光临本站,如有问题请及时联系我们。唯一指定客服QQ:1518918268

说说搜索引擎是如何工作的你知道么

    热度:℃      作者:

   1提取文字

   由于搜索引擎蜘蛛抓取的是页面的HTML代码,里面包含了大量的HTML标签、js等无法用到排名上的内容,所以搜索引擎索引首先要做的是把其中的HTML标签、js去掉,保留剩下的页面文字内容。

   2去停止词

   在页面内容中会存在对内容没有任何影响的词,比如"的"、"之"、"却"、"啊"之类。搜索引擎在索引时会把这些词去掉,让页面内容的主题更加突出。

   3中文分词

   中文分词是中文搜索引擎特有的步骤,英文单词之间会有空格作分隔,而中文词与词之间没有分隔符号,个句子字与词都是连在起的。中文搜索引擎必须首先分辨那几个字组成个词,哪些字本身是个词。比如健身方法将被分词为健身和方法两个词。

   4索引

   经过以上步骤之后,搜索引擎可以提炼出可以代表个页面内容的些关键词,同时记录这些词在页面上的出现频率、出现次数、格式、位置等信息。

  

   5去重(为什么伪原创弊大于利)

   搜索引擎为了减少搜索结果中出现的重复内容会选取页面内容中出现频率高的词,通常会选出10个左右关于页面的关键词来计算页面的指纹。

   6页面质量判断

   在这个阶段,搜索引擎会对页面内容质量、链接质量等作出判断,比如的绿萝、石榴算法。

   7链接关系计算

   当页面中存在链接时,搜索引擎会计算这些链接都只想哪些页面,每个页面都有哪些导入链接,链接使用了什么锚文字,这些复杂的链接指向关系形成了网站和页面的链接权重。

   这些链接关系也是计算权重的重要依据之,于权重和链接分析会在以后的文章中专门介绍。

来源:本文由本站原创撰写,欢迎分享本文,转载请保留出处和链接!部分信息来源互联网,如有侵权,请联系删除。