正排和倒排索引
-
目录 - 正排
目录 -
快速查找“benchmarking”所在的页面(倒排)
benchmarking
倒排索引的核心组成
- 倒排索引包含两个部分
- 单次词典(term dictionary),记录所有文档的单词,记录单词到倒排列表的关联关系
- 单词词典比较大,可以通过
b+树
或者哈希拉链法
实现,以满足高性能的插入与查询
- 单词词典比较大,可以通过
- 单次词典(term dictionary),记录所有文档的单词,记录单词到倒排列表的关联关系
- 倒排列表(posting list) - 记录了单词对应的文档结合,由倒排索引项组成
- 倒排索引项(posting)
- 文档id
- 词频tf - 该单词在文档中出现的次数,用户相关性评分
- 位置(postion) - 单词在文档中分词的位置。用户语句的搜索(phrase query)
- 偏移(offset) - 记录单词的开始结束的位置,实现高亮显示
- 倒排索引项(posting)
elasticsearch 的倒排索引
elasticsearch- elasticsearch的json文档中的每个字段,都有自己的倒排索引
- 可以指定对某些字段不做索引
- 优点:节省存储空间
- 缺点:字段无法搜索
网友评论