美文网首页
了解一下搜索引擎的结构

了解一下搜索引擎的结构

作者: helinyu | 来源:发表于2017-02-22 09:50 被阅读151次

    搜索引擎: 是一类系统或者软件系统。
    作用:从文档的集合中查找(检索)出匹配信息需求(查询)的文档。

    信息需求:有单词、问题等构成。

    wiser: 是一个全文搜索引擎的工具吧(???)。

    全文:全部的句子,当检索的对象为“由文本构成的文档中的全部句子”时,对该文档进行检索就成为全文检索。(也就是检索的对象全部是文档)
    [实现这种全文搜索的系统是全文搜索引擎(full-text search engine)]

    现代的搜搜引擎有:谷歌、百度、雅虎等web检索。

    搜索引擎的基本结构

    索引管理器(index Manager)
    索引检索器(index searcher)
    索引构建起(indexer)
    文档管理器(Document Manager)

    索引管理器:
    作用:管理带有索引结构的数据。
    索引结构:用于高速检索的数据结构
    (对索引的访问也是通过索引管理器进行的)
    索引管理器通常是将索引作为二级存储上的二进制文件进行管理的。
    (而且还经常会通过压缩的索引来达到从二级存储加载的数据量,提升检索处理效率的目的)=====> 二级存储一般是怎么样?(二级结构)

    二级存储(secondary storage,auxiliary storage)是计算机主存储器或内存之外的所有可访问数据存储器。
    二级存储:是计算机主存储器或内存之外的所有可访问数据存储器。外部存储以及辅助存储是其同义词。

    索引检索器:是利用索引进行全文搜索处理的组件。
    根据来自检索应用程序用户的查询,协同索引管理器进行检索处理;
    根据某种标准对于查询相匹配的检索结果排序,并将排序在前面的结果返回给应用程序。(浏览器上经常会看到的对应的搜索结果的目录条)

    索引构建器:从作为索引对象的文档中生成索引的组件。
    会先通过解析将文本文档分解为单词序列,然后再将单词序列转换为索引结构;
    索引构建(Index construction):生成索引

    文档管理器:管理文档数据库的组件,文档数据中存储着作为对象的文档。
    先从文档数据库中取出与查询相匹配的文档,然后在根据需要从文档中提取一部分内容作为摘要。
    对应着文档特定的ID(文档编号)来保存文档的内容。
    经常会看到将数据库管理系统(DBMS)和基于二级存储的数据库管理器(DBM)等用作文档管理器。
    (文档管理的文档数据库既可以在构建索引的阶段岁索引一同构建,也可以提前构建)

    爬虫不是搜索引擎的一部分,但是和搜索引擎密切相关。
    爬虫:(Crawler) 用于搜索web上的html文件等文档的系统(机器人)。
    Eg:用于web检索的爬虫就是通过追随web页面上的超链接来收集全世界的html网页的。全世界的web页面正以惊人的速度不断增长,所以爬虫的任务就是:高校的收集这些网页。
    搜索排序系统:
    PageRank(google)系统为代码的搜索排序系统是给作为检索对象的文档打分的系统。
    Eg:在web检索中,通常会以考量了查询与文档的关联性以及文档的热度后得出分数为基准,将检索的结果排序后提供给应用程序的应用。搜索排序系统正是用于次目的、能(机械地)算出文档热门度的系统。
    pageRank : 这个东西应该多了解
    对于爬虫,我们应该也写一个服务器等程序对网页上面的内容进行爬;

    PS:
    1、了解搜索引擎,以及全文搜索引擎
    2、搜索引擎的一般构成(4个部分)
    3、搜索引擎的各个部分和爬虫、PageRank的关系。

    需要学习的内容:
    1、爬虫
    2、pageRank的具体算法等

    相关文章

      网友评论

          本文标题:了解一下搜索引擎的结构

          本文链接:https://www.haomeiwen.com/subject/rzvpwttx.html