美文网首页
第七章 一个完整搜索系统中的评分计算

第七章 一个完整搜索系统中的评分计算

作者: ww5365 | 来源:发表于2017-10-18 11:02 被阅读69次

    7.1快速评分及排序

    思想:把查询向量看成是1,<1,1,1,..>,这样的话,计算query和文档d的余弦相似度时,只需要累加文档d的权重即可

    7.1.1 非精确的返回前k偏文档的方法

    思想:1)先找一个文档集合A;条件是包含很多和前k偏文档得分相近的文档;K<|A|<<N,远远小于文档总户
    2)返回集合A中的得分最高的前K篇文档;

    7.1.2 索引去除技术

    思想:
    1)在倒排中查询字典时,词项idf值超过一定阀值的文档被留下;小于阀值的文档将忽略掉。自己考虑好处?
    2)只留下包含多个查询词项的文档;

    这样的话,可以把倒排索引中的很多拉链数据过滤掉。也就是所说的索引去除技术;

    7.1.3 胜者表

    champion list (同义:fancy list ; top doc)

    思想: 对于词典中的每个词项term,预先计算前r个最高权重的文档; 使用时,也就是这些文档参与相似度计算;

    7.1.4 静态得分和排序

    static quality score: 静态质量得分 简称:静态得分

    7.1.5影响度排序

    7.1.6 簇剪枝法

    相关文章

      网友评论

          本文标题:第七章 一个完整搜索系统中的评分计算

          本文链接:https://www.haomeiwen.com/subject/jwpsuxtx.html