美文网首页
MRR,MAP等评估方法(常用与IR和QA任务)

MRR,MAP等评估方法(常用与IR和QA任务)

作者: 全都给我Pass | 来源:发表于2021-03-01 14:24 被阅读0次

nlpcc 评估指标

KBQA系统的质量由MRR,Accuracy@N,和Average F1评估。

DBQA系统的质量由MRR和MAP评估。

MRR(平均的倒数排名)

M R R=\frac{1}{|Q|} \sum_{i=1}^{|Q|} \frac{1}{\operatorname{rank}_{i}}

Q表示评估集的问题总数,{rank}_{i}表示对于第i个问题{Q}_{i}预测到答案集{C}_{i}中,第一个正确答案的位置。如果对于问题{Q}_{i}生成的答案集{C}_{i}没有包含到正确答案{A}_{i}\frac{1}{{rank}_{i}}值设置为0。正确答案的位置越前越好,比如第一个预测的答案就命中金答案,\frac{1}{{rank}_{i}}等于1。越不准该值越小。因此MRR值越大越好。

Accuracy@N

Accuracy@N=\frac{1}{|Q|} \sum_{i=1}^{|Q|} \delta\left(C_{i}, A_{i}\right)

对评估集Q个问题,每个问题i预测出N候选答案集Ci,Ci包含正确答案Ai即记为1。否则0。对每个问题求和,然后取平均。得到平均精度。

AveragedF1@N

AveragedF1 =\frac{1}{|Q|} \sum_{i=1}^{|Q|} F_{i}

{F}_{i}表示问题{Q}_{i}的F1值,基于标准答案Ai集和预测的答案集{C}_{i}。当预测的答案集不包含标准答案,F1值设置为0。其余情况F1值等于:

F_{i}=\frac{2 \cdot \frac{\#\left(C_{i}, A_{i}\right)}{\left|C_{i}\right|} \cdot \frac{\#\left(C_{i}, A_{i}\right)}{\left|A_{i}\right|}}{\frac{\#\left(C_{i}, A_{i}\right)}{\left|C_{i}\right|}+\frac{\#\left(C_{i}, A_{i}\right)}{\left|A_{i}\right|}}

其中\#(C_{i}, A_{i})表示同时在答案集和预测集的个数。在命名实体识别任务中,常用这个F1值。例如一个句子,中国人生活在中国。包括标签实体[中国人]下标(0,2)和[中国]下标(6,7),如果命名预测为[中国人] (0,2)和[生活] (3,4),那么\#(C_{i}, A_{i})=1,C_{i}等于2,A_{i}等于2。给案例的F1值=2x0.5x0.5/(0.5+0.5)=50%

MAP(平均的平均查准率)

M A P=\frac{1}{|Q|} \sum_{i=1}^{|Q|} \operatorname{AveP}\left(C_{i}, A_{i}\right)

AveP (C, A)=\frac{\sum_{k=1}^{n}(P(k) \cdot r e l(k))}{\min (m, n)}表示平均查准率precision,其中,k表每个案例生成的答案集{C}中的第k个被检索出的答案句子。m表示案例的正确答案的句子数,n表示被检索出的句子数(答案集{C}的大小),如果m,n两者的最小值是0,即该问题的AveP (C, A)=0P(k)表示标准的答案句的真实排名/模型给出的排名。rel(k)表示给出的排序k的句子是不是真实的答案句。1表示是,0表示不是。

举例:在语义重复问句的信息检索(IR)任务中,现在评估集有两个问句,与两个问句直接相关的答案(语义重复的问题)分别有4个和3个.对第一个问题的相关4个语义重复问句的rank分别为1,2,4,7,系统给出了所有正例;第二个问题相关的3个语义重复问句的rank分别为1,3,5,系统给出了所有正例。计算MAP

则对于第1个问句,AveP (C, A)为:

\frac{\frac{1}{1}*1 + \frac{2}{2}*1 + \frac{3}{4}*1 + \frac{4}{7}*1}{4} = 0.83

则对于第2个问句,AveP (C, A)为:

\frac{\frac{1}{1}*1 + \frac{2}{3}*1 + \frac{3}{5}*1 }{3} =0.75

则MAP为:

\frac{0.83 + 0.75}{2} = 0.79

参考:nlpcc2016(中文开放域问答系统 任务guideline)

相关文章

网友评论

      本文标题:MRR,MAP等评估方法(常用与IR和QA任务)

      本文链接:https://www.haomeiwen.com/subject/zokafltx.html