美文网首页
信息检索导论七(部分):一个完整搜索系统中的评分计算

信息检索导论七(部分):一个完整搜索系统中的评分计算

作者: 沿哲 | 来源:发表于2021-01-18 15:34 被阅读0次

    从搜索引擎用户中得到的结论

    1. 图省略

    2. 结论

      • 摘要阅读(Viewing abstracts): 用户更可能阅读前几页(1, 2, 3, 4)的结果的摘要

      • 点击(Clicking): 点击的分布甚至更有偏向性

      • 一半情况下,用户点击排名最高的页面

      • 即使排名最高的页面不相关,仍然有30%的用户会点击它。

    3. 启示

      • 正确排序相当重要

      • 排对最高的页面非常重要

    精确TOP K检索及其加速方法

    1. 目标:从文档集的所有文档中找出K 个离查询最近的文档

    2. 步骤:对每个文档评分(余弦相似度),按照评分高低排序,选出前K个结果

    3. 加速方法

      1. 思路一:加快每个余弦相似度的计算

      2. 思路二:不对所有文档的评分结果排序而直接选出Top K篇文档

      3. 思路三:能否不需要计算所有N篇文档的得分?

    精确top K检索加速方法一:快速计算余弦
    1. 假设每个查询词项都出现1次

      1. 对于查询 q = jealous gossip,不考虑查询词项的任何权重机制时,2 个非零分量相等,在这里都等于 0.707。
    精确top k检索加速方法二:堆法N中选K
    1. 小根堆、大跟堆

      1. 小根堆:根结点(亦称为堆顶)的关键字是堆里所有 结点关键字中最小者

      2. 大跟堆:根结点( 亦称为堆顶)的关键字是堆里所有结点关键字中最大者

        image
      3. 堆排序法

    image

    相关文章

      网友评论

          本文标题:信息检索导论七(部分):一个完整搜索系统中的评分计算

          本文链接:https://www.haomeiwen.com/subject/cedxzktx.html