美文网首页
正排索引与倒排索引

正排索引与倒排索引

作者: 滴流乱转的小胖子 | 来源:发表于2020-06-21 17:30 被阅读0次

    正排 -- 目录

    image.png

    文档id 到 文档内容 和 单词 的一个关联

    倒排 -- (关键词)索引页

    image.png

    count : 单词出现次数

    单词 到 文档id的一个关联

    倒排索引的核心 包含两个部分

    一、单词词典(Term Dictionary)

    记录所有文档的单词,记录单词到倒排列表的关联关系

    • 单词词典一般比较大,可以通过B+树或哈希拉链法实现,以满足高性能的插入和查询

    二、倒排列表(Posting List)记录了单词对应的文档结合,又倒排索引组成

    • 倒排索引项(Posting)
      1.文档id
      2.词频TF 该单词在文档中出现的次数,用于相关评分
      3.位置(Position)单词在文档中分词的位置。用于语句搜索(phrase query)
      4.偏移(Offset) 记录单词的开始结束位置,实现高亮显示

    一个例子: Elasticsearch的倒排索引


    image.png

    Elasticsearch的倒排索引

    image.png

    相关文章

      网友评论

          本文标题:正排索引与倒排索引

          本文链接:https://www.haomeiwen.com/subject/dhyaxktx.html