美文网首页
搜索引擎工作流程

搜索引擎工作流程

作者: shameyou | 来源:发表于2017-09-12 16:44 被阅读259次

来源:百度站长平台-站长社区-每天坚持更新3-4篇文章,百度为啥不收录新文章,只是之前

百度搜索引擎的工作流程,

第一步:爬行

搜索引擎是通过一种特定规律的软件跟踪网页的链接,从一个链接爬到另外一个链接,像蜘蛛在蜘蛛网上爬行一样,所以被称为“蜘蛛”也被称为“机器人”。搜索引擎蜘蛛的爬行是被输入了一定的规则的,它需要遵从一些命令或文件的内容。

第二步:抓取存储

搜索引擎是通过蜘蛛跟踪链接爬行到网页,并将爬行的数据存入原始页面数据库。其中的页面数据与用户浏览器得到的HTML是完全一样的。搜索引擎蜘蛛在抓取页面时,也做一定的重复内容检测,一旦遇到权重很低的网站上有大量抄袭、采集或者复制的内容,很可能就不再爬行。

第三步:预处理

搜索引擎将蜘蛛抓取回来的页面,进行各种步骤的预处理。
⒈提取文字
⒉中文分词
⒊去停止词
⒋消除噪音(搜索引擎需要识别并消除这些噪声,比如版权声明文字、导航条、广告等……)
5.正向索引
6.倒排索引
7.链接关系计算
8.特殊文件处理
除了HTML 文件外,搜索引擎通常还能抓取和索引以文字为基础的多种文件类型,如 PDF、Word、WPS、XLS、PPT、TXT 文件等。我们在搜索结果中也经常会看到这些文件类型。 但搜索引擎还不能处理图片、视频、Flash 这类非文字内容,也不能执行脚本和程序。

第四步:排名

用户在搜索框输入关键词后,排名程序调用索引库数据,计算排名显示给用户,排名过程与用户直接互动的。但是,由于搜索引擎的数据量庞大,虽然能达到每日都有小的更新,但是一般情况搜索引擎的排名规则都是根据日、周、月阶段性不同幅度的更新。

  • 提取文字
  • 中文分词
  • 去停止词
  • 消除噪声
  • 去重
  • 正向索引
  • 倒排索引
  • 链接关系计算
  • 特殊文件处理
    ……

相关文章

  • 搜索引擎工作原理及优化(SEO)

    搜索引擎整个的处理流程是非常复杂的,涉及大量的运算,本文只是简单介绍一下搜索引擎的大致过程。 搜索引擎的工作流程大...

  • 搜索引擎工作流程

    来源:百度站长平台-站长社区-每天坚持更新3-4篇文章,百度为啥不收录新文章,只是之前 百度搜索引擎的工作流程, ...

  • 搜索引擎的工作流程

    作为消费者,我们平时上网购物,为了节省时间,很多情况是直接输入自己想要的产品进行搜索,就可以轻松的找到。当然,如果...

  • 百度搜索引擎原理

    搜索引擎工作原理 1.抓取 2.搜录建库预处理 3.分析搜索企求 4.对结果进行排序 搜索引擎的原理详细流程图 蜘...

  • 搜索

    一、全网搜索引擎架构与流程 全网搜索的宏观架构长啥样? 全网搜索的宏观流程是怎么样的? 全网搜索引擎的宏观架构如上...

  • Google搜索的PageRank算法

    joselynzhao·原文链接 背景和问题 搜索引擎工作流程 网页信息检索(录入关键字) 匹配搜索请求(在索引数...

  • 【高级特性】54、网络爬虫

    目录一、搜索引擎蜘蛛二、requests库三、Beautiful Soup四、爬虫的基本流程 一、搜索引擎蜘蛛 爬...

  • 李亚涛:搜索引擎工作流程

    搜索引擎工作流程大概会涉及以下几个部分: 1、信息爬虫(蜘蛛) 2、内容处理 3、分词 4、去重 5、索引 6、内...

  • 搭建elk服务

    一、搜索引擎 1、搜索引擎是由索引组件、搜索组件和用户接口组成: 流程: 索引组件:获取数据-->建立文档-->文...

  • python3爬虫修炼手册-Part1

    1.1、爬虫分类(1)通用爬虫通常是对搜索引擎的内容,全部爬取下来,速度较快(2)聚焦爬虫聚焦爬虫的工作流程较为复...

网友评论

      本文标题:搜索引擎工作流程

      本文链接:https://www.haomeiwen.com/subject/igtryttx.html