简介
- BM25用于计算Query与Doc相关性得分:首先对Query进行分词得到
,然后计算Query中的每个词
与Doc的相关性得分,最后将Query中每个词
与Doc的相关性得分进行相加,即可得到Query与Doc的相关性得分; 一般的计算公式如下:
- 上式中,
表示词
的权重,一般可以使用IDF表示;
表示词
与D的相关性得分;下式中:
表示总的文档数;
表示总文档中包含
的文档数量;
在所有文档中出现次数越多,则IDF值越小;
-
相关性得分计算公式如下。下式中:
表示词
在D中出现的频率;
表示当前文档D的长度;
表示平均的文档长度。
为常数,可设置为:
。
参考文档
- 文本相似度-bm25算法原理及实现 https://www.jianshu.com/p/1e498888f505
网友评论