美文网首页网盘搜索引擎
一 搜索引擎概述

一 搜索引擎概述

作者: 狼之足迹 | 来源:发表于2016-08-28 15:14 被阅读54次

搜索引擎:一种用来在计算机网络,特别是万维网上检索各种文件的计算机程序.

是一种查询系统,也是一个用户自定义的信息聚合系统(根据用户定义的需求,爬取网络上的资源,整个为本地离线信息集合)

三种搜索服务方式

目录式搜索引擎
依赖编辑人员进行筛选,在此基础进行分类,形成分类目录结构.
eg早期雅虎,搜狐搜索:一种类似的黄页查询,搜索信息不全面,更新不及时

全文搜索 引擎
针对万维网所有网页进行全文搜索的搜索引擎.由下载系统以某种策略自动在万维网搜索和发现信息,由搜索引擎为搜索到的信息建立索引,由禅寻系统根据用户的查询输入检索索引库,并返回给用户.
服务方式是面向网页的全文检索服务
优点:信息量大,更新即使,无人干扰.
缺点:返回信息太多,有太多无关信息

元搜索引擎(MetaSearch Engine)
没有自己的数据,而是将用户的查询请求同时向多个搜索引擎递交.然后将返回的结果进行重新排除和重新排序等处理后,作为自己的结果返回给用户.
服务方式为面向网页的全文检索
优点:返回结果信息量大
缺点:不能充分使用原搜索引擎的功能,用户需要更多的筛选
代表:webCrawler

搜索引擎的主要需求
快速
全面:
查全率(Recall)作为衡量检索是否全面的衡量标准:全部相关网页/查出相关网页-->索引越多,查全率却高
准确:查准率:相关文档数/检索出的文档总数.
可靠:存储,查询,索引中考虑
廉价

搜索引擎的4大系统

下载
负责从万维网上下载各种类型的网页,并且保持对万维网变化的同步

分析
抽取下载系统中得到的网页数据,并进行PageRank和分词计算

索引
负责将分析系统处理后的网页对象索引入库

查询
分析用户提交的查询请求,然后从索引库中检索出相关网页并将网页排序后,以查询结果的方式返回用户

注:从整体看,下载,分析,索引组成了搜索引擎的数据制作部分,被称为离线部分

查询系统为搜索引擎的数据服务部分,要求快速响应,被称为在线部分

从细节来看,网页从开始到最后都是网页而在搜索引擎内部会有两种形式:一种网页库的方式存储,一种称为网页对象被存储在索引库中.

搜索引擎的主要数据来自网页,网页处理能力是搜索引擎面对的主要挑战

搜索引擎工作过程 多调度多爬虫下载系统 分析系统结构图 生成搜索结果页的全过程

相关文章

  • SEM搜索引擎营销全流程

    一、搜索引擎营销 1、搜索引擎营销概述 搜索引擎营销,英文Search Engine Marketing,简称为“...

  • 一 搜索引擎概述

    搜索引擎:一种用来在计算机网络,特别是万维网上检索各种文件的计算机程序. 是一种查询系统,也是一个用户自定义的信息...

  • 搜索引擎系统原理剖析

    目录 【1】搜索引擎概述 【2】搜索引擎的基础技术 【3】搜索引擎的平台基础 【4】搜索结果的改善优化 【1】搜索...

  • 通用搜索产品体验报告

    一、搜索概述 搜索引擎在百度百科中的定义如下: 搜索引擎(Search Engine)是指根据一定的策略、运用特定...

  • SEO搜索引擎市场概述

    搜索引擎是一扇打开信息大门的钥匙,成为一名专业的SEOer是非常有前途的。因为你知道信息的本质是什么?信息为什么而...

  • 酒店搜索引擎优化概述

    选自《酒店搜索引擎优化三步(SEO)成功法》 搜索引擎优化是通过研究各类搜索引擎如何抓取互联网网页,及研究搜索...

  • 一篇文章让你了解什么是反爬

    反爬概述 网络爬虫,是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成。 但是当网络爬...

  • laravel+Elasticsearch

    1.概述:ElasticSearch是一款基于Lucene构建的开源、分布式、RESTful接口的全文搜索引擎。E...

  • Elasticsearch入门

    概述 Elasticsearch是一种面向文档内存型搜索引擎,存储的数据类型为json,类似mango的nosql...

  • Spring Boot 检索&定时任务

    概述 应用经常需要添加检索功能,开源的 ElasticSearch 是目前全文搜索引擎的首选。他可以快速的存储、搜...

网友评论

    本文标题:一 搜索引擎概述

    本文链接:https://www.haomeiwen.com/subject/hxrzsttx.html