美文网首页
搜索:搜索引擎索引

搜索:搜索引擎索引

作者: jlnbda3488375 | 来源:发表于2017-11-04 17:52 被阅读23次

索引基础

  • 单词—文档矩阵
    单词文档矩阵是表达两者之间包含关系的概念模型;
    搜索引擎的索引其实就是实现单词-文档矩阵的具体数据结构,实现方式有:倒排索引、签名文件、后缀树等;

倒排索引

单词ID 单词 文档频率 倒排列表(DocID;TF;<POS>)
1 谷歌 3 (1;1;<1>),(2;1;<1>),(3;2;<1,6>)
2 地图 2 (1;1;<3>),(2;1;<3>)

以单词地图为例,单词编号即为2,文档频率为2,证明整个文档集合中有2个文档包含这个单词,对应的倒排列表为{(1;1;<3>),(2;1;<3>)},其含义为在文档1和文档2 中出现过这个单词,单词的频率都为1,单词“地图”在文档中出现的位置都是3,即文档中第3个单词是“地图”。

在实际的搜索引擎系统中,并不存储倒排索引项中的实际文档编号,取而代之的是文档编号差值(D-Gap)。eg:原始的3个文档的编号分别是187、196、199,在实际存储时就转化为187、9、3。
进行差值编号的原因是为了更好的对数据进行压缩;

单词词典

单词词典是倒排索引中非常重要的组成部分,它用来维护文档集合中出现过的所有单词的相关信息。
高效的数据结构对于搜索效率的影响很大,常用的数据结构包括哈希加链表结构和树形词典结构;

  • 哈希算法
    哈希算法将任意长度的二进制值映射为较短的固定长度的二进制值,这个小的二进制值称为哈希值。
    哈希(Hash)算法,即散列函数。它是一种单向密码体制,即它是一个从明文到密文的不可逆的映射,只有加密过程,没有解密过程。同时 ,哈希函数可以将任意长度的输入经过变化以后得到固定长度的输出。哈希函数的这种单向特征和输出数据长度固定的特征使得它可以生成消息或者数据。
  • 树形结构:B树(或B+树)与哈希方式查找不同,需要字典能够按照大小排序(数字或字符序),而哈希方式无需提前排序;

相关文章

  • zxzxzxzxzxzxzx

    搜索引擎怎么用111搜索引擎怎么用111搜索引擎怎么用111搜索引擎怎么用111搜索引擎怎么用111搜索引擎怎么用...

  • SEO学习第二天

    SEO 叫 :搜索引擎优化 即搜索引擎在利用搜索引擎规则来提高网站在搜索引擎中的自然排名 SEM:搜索引擎营销 ...

  • 搜索引擎优化复盘1搜索引擎营销概念

    第一章、搜索引擎营销概念 什么是搜索引擎?常见的搜索引擎有哪些?搜索引擎的分类?搜索引擎的工作原理? 1.认识搜索...

  • 搜索引擎优化(seo)读书笔记|欧朝晖版

    第1章 搜索引擎和搜索引擎优化的同步发展 如何获得来自搜索引擎的流量,就引入了搜索引擎营销这个话题 什么是搜索引擎...

  • Elasticsearch使用

    一、搜索引擎基础 搜索引擎是倒排索引,Elasticsearch必须成为索引才支持查询搜索引擎两大组件:搜索组件:...

  • 2018.03.11 周日--【技术文章】《搜索引擎sphin

    一、搜索引擎 & sphinx 1.1) 【搜索引擎的概念】 搜索引擎(Search Engine)是指根据一...

  • 搜索引擎优化

    搜索引擎优化 SEO(Search Engine Optimization):汉译为搜索引擎优化。搜索引擎优化是一...

  • 增长黑客第三章(三)

    关键词:捆绑下载,搜索引擎优化, 3.6 搜索引擎和应用商店的优化营销 搜索引擎优化:利用搜索引擎的排序规则,通过...

  • 小白入门 | 做好SEO优化,只需八步

    SEO中文解释就是“搜索引擎优化”的意思,也可以理解为“百度搜索引擎优化”、“谷歌搜索引擎优化”、“360搜索引擎...

  • 搜索引擎优化SEO

    搜索引擎优化即为SEO。搜索引擎优化是一种利用搜索引擎的搜索规则来提高目前网站在有关搜索引擎内的自然排名的方式。 ...

网友评论

      本文标题:搜索:搜索引擎索引

      本文链接:https://www.haomeiwen.com/subject/zwtzpxtx.html