美文网首页
信息检索 - BM25

信息检索 - BM25

作者: nlpming | 来源:发表于2021-08-30 00:18 被阅读0次

简介

  • BM25用于计算Query与Doc相关性得分:首先对Query进行分词得到\{q_1, q_2, ..., q_n\},然后计算Query中的每个词q_i与Doc的相关性得分,最后将Query中每个词q_i与Doc的相关性得分进行相加,即可得到Query与Doc的相关性得分; 一般的计算公式如下:

Score(Q, D) = \sum_{i=1}^{n} w_i R(q_i, D)

  • 上式中,w_i表示词q_i的权重,一般可以使用IDF表示;R(q_i, D) 表示词q_i与D的相关性得分;下式中:N表示总的文档数;n(q_i)表示总文档中包含q_i的文档数量;q_i在所有文档中出现次数越多,则IDF值越小;

w_i = idf(q_i) = log \frac{N - n(q_i) + 0.5}{ n(q_i) + 0.5}

  • R(q_i, D) 相关性得分计算公式如下。下式中:tf_i 表示词q_i在D中出现的频率;dl表示当前文档D的长度;avgdl表示平均的文档长度。k_1, b为常数,可设置为:k_1 = 2, b = 0.75

R(q_i, D) = \frac{tf_i * (k_1 + 1) }{tf_i + k_1(1 - b + b* \frac{dl}{\text{avgdl}})}

参考文档

相关文章

  • 信息检索 - BM25

    简介 BM25用于计算Query与Doc相关性得分:首先对Query进行分词得到,然后计算Query中的每个词与D...

  • 经典检索算法:BM25原理

    本文cmd地址:经典检索算法:BM25原理 bm25 是什么? bm25 是一种用来评价搜索词和文档之间相关性的算...

  • BM25算法

    1. bm25 是什么? bm25 是一种用来评价搜索词和文档之间相关性的算法,它是一种基于概率检索模型提出的算法...

  • AliMe Chat: A Sequence to Sequen

    对于输入Q,从QA库中检索出最接近的k个(q,a)对,其中检索模型(IR)基于BM25,并经过了去停用词等预处理 ...

  • 2020年03月16日 DF-IDF

    信息检索概述 信息检索是当前应用十分广泛的一种技术,论文检索、搜索引擎都属于信息检索的范畴。通常,人们把信息检索问...

  • 学习笔记_2020.02.23

    信息检索_黄如花 怎样利用信息检索省钱

  • 信息检索

    #师北宸21天写作训练营Vol.1# 信息检索是写作必备的一项技能,是我们建立素材库的基本。 当下的时代,信息传递...

  • 信息检索

    #数据收集 ## 内部数据收集 ## 互联网数据收集 ### 爬虫 ### 爬虫的工作模式: 提供一个或若干个初始...

  • 信息检索

    少数民族文献 方言文献 典藏文献 两会所有资料 雾霾环境信息检索 编 编著 著 专著

  • 信息检索

    今天在网上对某个专题进行文献查找,进行对应的知识点梳理,可惜检索技能不到家,找到的多数是与专题无关的内容,相关的深...

网友评论

      本文标题:信息检索 - BM25

      本文链接:https://www.haomeiwen.com/subject/eycniltx.html