美文网首页
信息检索 - BM25

信息检索 - BM25

作者: nlpming | 来源:发表于2021-08-30 00:18 被阅读0次

    简介

    • BM25用于计算Query与Doc相关性得分:首先对Query进行分词得到\{q_1, q_2, ..., q_n\},然后计算Query中的每个词q_i与Doc的相关性得分,最后将Query中每个词q_i与Doc的相关性得分进行相加,即可得到Query与Doc的相关性得分; 一般的计算公式如下:

    Score(Q, D) = \sum_{i=1}^{n} w_i R(q_i, D)

    • 上式中,w_i表示词q_i的权重,一般可以使用IDF表示;R(q_i, D) 表示词q_i与D的相关性得分;下式中:N表示总的文档数;n(q_i)表示总文档中包含q_i的文档数量;q_i在所有文档中出现次数越多,则IDF值越小;

    w_i = idf(q_i) = log \frac{N - n(q_i) + 0.5}{ n(q_i) + 0.5}

    • R(q_i, D) 相关性得分计算公式如下。下式中:tf_i 表示词q_i在D中出现的频率;dl表示当前文档D的长度;avgdl表示平均的文档长度。k_1, b为常数,可设置为:k_1 = 2, b = 0.75

    R(q_i, D) = \frac{tf_i * (k_1 + 1) }{tf_i + k_1(1 - b + b* \frac{dl}{\text{avgdl}})}

    参考文档

    相关文章

      网友评论

          本文标题:信息检索 - BM25

          本文链接:https://www.haomeiwen.com/subject/eycniltx.html