美文网首页
[lucene] indexing process 索引过程

[lucene] indexing process 索引过程

作者: cdz620 | 来源:发表于2020-03-05 10:18 被阅读0次

    indexing process

    image

    Extracting text and creating the document

    将不同的数据转换成Document

    Analysis

    将Document经由一系列的过滤器,产生token stream

    Adding to the index

    分析后的token stream以Inverted index 保存。

    index segments

    三层结构

    • segments_<N>文件,保存每个segments文件的对应引用,N 代表索引改变的次数
      • segments file(_X.<ext>, X: segment’s name, <ext>: 代表什么类型的索引文件,term vectors, stored fields, inverted index) 每个segment 包含多个文件

    index segments 管理

    • IndexWriter写索引到index segments, 当document 写数据到directory时会创建新的segment
    • 周期性,IndexWriter会选择segment合并成一个新的segment,避免产生过多的segment
    • 合并:由MergeScheduler调度使用MergePolicy对segment 进行合并

    相关文章

      网友评论

          本文标题:[lucene] indexing process 索引过程

          本文链接:https://www.haomeiwen.com/subject/vxbdchtx.html