2018-12-10 搜索引擎工作原理

作者: 王日凯Dream | 来源:发表于2018-12-10 20:03 被阅读0次

2018-12-10 搜索引擎工作原理
SEO优化笔记
第一节.揭秘Google搜索引擎SEO优化原理-老船长外贸网站S
搜索引擎优化复盘1搜索引擎营销概念
【SEO】优化技巧一：导航条当前菜单，不带参数，高亮显示
搜索引擎优化复盘2认识SEO
网络商务信息检索，采集和应用
搜索引擎工作原理解析
搜索引擎基本工作原理
六六seo基础入门第十五讲：搜索引擎工作原理之预处理

搜索引擎的工作原理

首先在互联网中发现、搜集网页信息；同时对信息进行提取和组织建立索引库；再由检索器根据用户输入的查询关键字，在索引库中快速检出文档，进行文档与查询的相关度评价，对将要输出的结果进行排序，并将查询结果返回给用户。

抓取

每个独立的搜索引擎都有自己的网页抓取程序爬虫（spider）。爬虫Spider顺着网页中的超链接，从这个网站爬到另一个网站，通过超链接分析连续访问抓取更多网页。被抓取的网页被称之为网页快照。

处理网页

搜索引擎抓到网页后，还要做大量的预处理工作，才能提供检索服务。其中，最重要的就是提取关键词，建立索引库和索引。其他还包括去除重复网页、分词（中文）、判断网页类型、分析超链接、计算网页的重要度/丰富度等

检索服务

用户输入关键词进行检索，搜索引擎从索引数据库中找到匹配该关键词的网页；为了用户便于判断，除了网页标题和URL外，还会提供一段来自网页的摘要以及其他信息。

问题

爬行和抓取

谁来爬：蜘蛛或者机器人；

怎么爬：超链接（广度优先和深度优先两种广度优先是先抓框架然后顺着框架继续往下抓取成横向，深度优先是一个一个抓取，一个抓取到底部才还一个栏目直到所有栏目全部抓取完成纵向抓取）

爬什么：文字如tdk（关键词、标题和描述）、alt（图片，鼠标放上去显示的字，替换文本）、文章内容

多长时间爬一次：

取决于你网站的跟新速度，(如果适当的更新，抓取程序会来你的网站抓取新的东西，相当于和它搞好了关系)；通过外链抓取到你的网站

在哪里爬：网站

预处理

怎么预处理

清理垃圾:清理垃圾网站

文字提取：提取文字

消燥：筛选不相关的，和网站排名无关的

去重：去除重复的

正向索引：数据库文件再匹配用户搜索关键词

倒排索引：关键词匹配数据库文件

网友评论

本文标题：2018-12-10 搜索引擎工作原理

本文链接：https://www.haomeiwen.com/subject/lkbdhqtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

2018-12-10 搜索引擎工作原理

问题

爬行和抓取

预处理

相关文章