7.1快速评分及排序
思想:把查询向量看成是1,<1,1,1,..>,这样的话,计算query和文档d的余弦相似度时,只需要累加文档d的权重即可
7.1.1 非精确的返回前k偏文档的方法
思想:1)先找一个文档集合A;条件是包含很多和前k偏文档得分相近的文档;K<|A|<<N,远远小于文档总户
2)返回集合A中的得分最高的前K篇文档;
7.1.2 索引去除技术
思想:
1)在倒排中查询字典时,词项idf值超过一定阀值的文档被留下;小于阀值的文档将忽略掉。自己考虑好处?
2)只留下包含多个查询词项的文档;
这样的话,可以把倒排索引中的很多拉链数据过滤掉。也就是所说的索引去除技术;
7.1.3 胜者表
champion list (同义:fancy list ; top doc)
思想: 对于词典中的每个词项term,预先计算前r个最高权重的文档; 使用时,也就是这些文档参与相似度计算;
7.1.4 静态得分和排序
static quality score: 静态质量得分 简称:静态得分
网友评论