信息检索导论四：索引构建

信息检索导论四：索引构建

作者: 沿哲 | 来源:发表于2021-01-08 17:44 被阅读0次

信息检索导论四：索引构建
信息检索导论五：索引压缩
倒排索引C++实现
信息检索导论一：布尔检索
Lucene、Elasticsearch、Kibana 入门教程
2020年03月16日 DF-IDF
ElasticSearch & Kafka & Docker
数字化信息检索
浅谈信息检索
文献检索与应用【0835】

对于大型的语料库，不能在硬盘采用同样的索引构建算法，需要一个外部排序算法。

BSBI

基本思想
- 对每一个块都生成倒排记录，并排序，写入硬盘中
- 然后将这些块合并成一个长的排序好的倒排记录
步骤
1. 将文档集分割成几个大小相等的部分
2. 将每个部分的词项 ID—文档 ID 对排序
3. 将中间产生的临时排序结果存放到磁盘中
4. 将所有的中间文件合并成最终的索引
图解
image
问题
1. 基于块的排序索引算法具有很好的可扩展性，但是需要一种将词项映射成其 ID 的数据结构。对于大规模的文档集来说，该数据结构会很大以致在内存中难以存放。

分布式索引构建

利用集群(Cluster)中的主控节点指挥索引构建工作。 • 我们认为主控节点是“安全”的。 • 将索引构建过程分解成一组并行的任务。 • 主控计算机从集群中选取一台空闲的机器并将任务分配给它。
步骤
1. 将输入文档集分割成n个数据片，每个数据片就是一个文档子集
2. 分析器
  1. 主节点将一个数据片分配给一台空闲的分析服务器。
  2. 分析器依次读取文档并生成<词项，文档>对
  3. 分析器将这些<词项，文档>对分成j个段
  4. 每一段是按照词项首字母划分的一个区间 • (例如：a-f, g-p, q-z)-这里 j=3
3. 倒排器
  1. 对于一个词项分区，倒排器收集所有的<词项，文档>对(也就是“倒排记录”)。
  2. 排序,并写入最终的倒排记录表。
图解
image

动态索引构建

迄今为止，我们都假设文档集是静态的。 • 但文档集通常不是静态的： • 文档会不断地加入进来 • 文档也会被删除或者修改 • 这就意味着词典和倒排记录表需要修改： • 对于已在词典中的词项更新倒排记录 • 新的词项加入到词典中
方法
1. 维护一个大的主索引
2. 新文档信息存储在一个小的辅助索引中
3. 检索可以同时遍历两个索引并将结果合并
4. 删除
  1. 文档的删除记录在一个无效位向量(invalidation bit vector)中
  2. 在返回结果前利用它过滤掉已删除文档 •
5. 定期地，将辅助索引合并到主索引中

相关文章

信息检索导论四：索引构建
对于大型的语料库，不能在硬盘采用同样的索引构建算法，需要一个外部排序算法。 BSBI 基本思想对每一个块都生成倒排...
信息检索导论五：索引压缩
索引压缩定义：将长编码串用短编码串来代替 111111111111111111 ? 18个1 优点节省磁盘空间(...
倒排索引C++实现
信息检索导论的课程第一章讲了倒排索引，关于倒排索引之前一直都是只明白了概念而没有动手实现，今天本想实现一下，无从下...
信息检索导论一：布尔检索
电子资源 GITHUB上的电子书和讲解PPT[https://github.com/luoxufeiyan/Mod...
Lucene、Elasticsearch、Kibana 入门教程
信息检索模型信息检索模型最重要的概念就是倒排索引，倒排索引是搜索引擎中常见的索引方法，用来存储在全文搜索下某个单...
2020年03月16日 DF-IDF
信息检索概述信息检索是当前应用十分广泛的一种技术，论文检索、搜索引擎都属于信息检索的范畴。通常，人们把信息检索问...
ElasticSearch & Kafka & Docker
ElasticSearch 全文检索先建立索引，再对索引进行搜索的过程叫全文检索扫描文件生成索引（非结构提取信息...
数字化信息检索
本节着重介绍借助网络信息检索工具、文献信息数据库、数字图书馆等进行的数字化信息检索。一.网络信息检索工具搜索引...
浅谈信息检索
按：本文浅谈信息检索是什么，为什么，怎么做等问题，主要内容是Manning等人著的《信息检索导论》前八张的读书笔记...
文献检索与应用【0835】
1.请说明搜索引擎的构成部分中，哪些部分和信息检索的“存”相关，哪些部分和信息检索的“取”相关？并请例举4个搜索引...

网友评论

本文标题：信息检索导论四：索引构建

本文链接：https://www.haomeiwen.com/subject/edvfaktx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|信息检索导论四：索引构建|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！