六六在seo基础入门第十四讲和同学们介绍了搜索引擎工作原理的第一步爬行和抓取,下面我们一起来了解搜索引擎工作原理的第二步——预处理。众所周知,互联网页面是非常庞大的,而用户在搜索关键词时蜘蛛要实时反馈给用户需求的信息,这个时候就需要之前抓取的页面经过预处理才可以实时为用户查询排名做好准备。
预处理在一些seo教程中也被称为索引。但这不是非常准确的,严格来说索引是搜索引擎预处理中最重要的内容,和蜘蛛爬取一样,预处理也是引擎从后台提前完成的。下面我们一起了解一下预处理的工作原理吧。
预处理六六seo基础入门第十五讲:搜索引擎工作原理之预处理
1,第一步:提取代码文字信息
蜘蛛抓取页面返回后,会将页面内的代码标签去除,留下可以用于排名的文字。如下图,
提取文字2,第二步:中文分词
搜索引擎为了更好的识别用户的搜索需求,会智能识别出用户输入的一段话。分词主要基于词典匹配和用户统计。举个例子“风马牛不相及”在词典中时一个完整的词汇。所以当我们输入这个词汇时,搜索引擎会将这个词汇判定成一个词处理。这就是基于词典分词。而“六六seo”这个词汇搜索引擎通过用户日常的搜索将之判定成一个词汇。这也是为了更好的满足用户的搜索需求。企业品牌刚开始推广时,既不是词典匹配也不是用户统计,这个时候作为seoer需要提示搜索引擎把这几个字当作一个词来处理。在页面中将品牌词通过加黑,调色等方式提示搜索引擎即可。
3,第三步:去停止词
去停止词指的是页面内容中出现频率较高且对内容没有影响的词汇,比如中文的“的”,”地“,英文的”an”,“the”都可以算是此类词汇。搜索引擎预处理时会优先去掉这些词汇,减少计算容量,更高效的排名展示。
4,第四步:消除噪声
这个非常好理解,比如现在很多页面内容插入的广告和页面毫不相关,将之称为页面噪声。预处理时会识别这些不相干的噪声并消除掉。提取页面的主体内容为后续排名准备。
5.第五步:去重处理
搜索引擎不希望用户在搜索关键词时展示排名的内容是不同站点的同一篇内容,希望给用户更多的知识填充。去重的基本原理就是在前四步都完成后,识别页面的主要关键词(一般是我们seo优化的关键词)来完成去重步骤。一般是以发布时间和站点权重为主。在这里建议seo优化时,写伪原创文章不要过度抄袭原创,因为这样的操作很难改变文章的主要关键词。
6,第六步:正向索引&倒排索引
正向索引是指经过前五步的提纯后,页面的主体内容已经变成了无数关键词组成的字符串。这个时候搜索引擎将每一个页面的关键词进行比对,主要为关键词出现频次,频率,格式,位置等信息。存储到数据库中。
倒排索引的建立是因为单单的正向索引无法快速的直接用于排名,这个时候搜索引擎在进行正向索引后再将包含同样关键词的页面进行汇总入库。大大提升了排名的效率。
7,第七步:链接关系
链接关系是指搜索引擎预处理页面时要将页面的反向链接和跳出链接和链接文字进行计算,也就是我们做外链,友情链接和锚文本的意义所在。大多seoer将这个链接关系也称为是页面投票机制。听到这里相信大家对我们为什么做外链和友情链接还有锚文本有了一定的了解了。
8,第八步:质量判断
页面质量判断就是搜索引擎在预处理阶段根据事先设定的算法进行分析,最终为用户查询排名做准备。
六六划重点:预处理阶段要比爬取阶段复杂的多,大家一定要理解吃透这些理论知识。这对以后从事seo优化工作有着很重要的意义。对于搜索引擎预处理有哪些疑问欢迎下方留言哦。
网友评论