简介
- BM25用于计算Query与Doc相关性得分:首先对Query进行分词得到,然后计算Query中的每个词与Doc的相关性得分,最后将Query中每个词与Doc的相关性得分进行相加,即可得到Query与Doc的相关性得分; 一般的计算公式如下:
- 上式中,表示词的权重,一般可以使用IDF表示; 表示词与D的相关性得分;下式中:表示总的文档数;表示总文档中包含的文档数量;在所有文档中出现次数越多,则IDF值越小;
- 相关性得分计算公式如下。下式中: 表示词在D中出现的频率;表示当前文档D的长度;表示平均的文档长度。为常数,可设置为:。
参考文档
- 文本相似度-bm25算法原理及实现 https://www.jianshu.com/p/1e498888f505
网友评论