美文网首页
信息检索导论六(简略):文档评分、词项权重计算

信息检索导论六(简略):文档评分、词项权重计算

作者: 沿哲 | 来源:发表于2021-01-14 10:09 被阅读0次

词项频率

对文档中的每个词项都赋予了一个权重,它取决于该词项在文档中出现的次数

将权重设置 为 t 在文档中的出现次数。这种权重计算的结果称为词项频率(term frequencey),记为 ​

  1. 逆文档频率

    1. 思想:在一个有关汽车工业的文档集中,几乎所有的文档都会包含 auto,此时,auto就没有区 分能力。是给文档集频率[词项在文档集中出现的次数]较高的词项赋予较低的权重

    2. :文档频率,出现t的所有文档数

    3. :逆文档频率

      :所有文档的数目

    4. 性质:一个罕见词的 idf 往往很高,而高频词的 idf 就可能较低

      image
  2. 权重计算

    1. t在少数文档中出现,权值最大

      t在很多文档中出现/在文档中出现次数很少,权重次之

      t在所有文档中出现,权重最小

    2. 重合度评分指标:文档的得分是所有查询词项在文档中的出现次 数tf之和。当然,我们可以对这种方法进行修正,即不采用tf而采用tf-idf权重求和

查询和文档之间的余弦相似度

  1. 用夹角余弦值代替欧氏距离

  2. 公式

    image

    是第i 个词项在查询q中的tf-idf权重

    是第i 个词项在文档d中的tf-idf权重

  3. 举例

    1. 三部小说的相似度,列出tf
    image
    1. image

相关文章

网友评论

      本文标题:信息检索导论六(简略):文档评分、词项权重计算

      本文链接:https://www.haomeiwen.com/subject/kagmaktx.html