nlpcc 评估指标
KBQA系统的质量由MRR,Accuracy@N,和Average F1评估。
DBQA系统的质量由MRR和MAP评估。
MRR(平均的倒数排名)
Q表示评估集的问题总数,表示对于第i个问题
预测到答案集
中,第一个正确答案的位置。如果对于问题
生成的答案集
没有包含到正确答案
,
值设置为0。正确答案的位置越前越好,比如第一个预测的答案就命中金答案,
等于1。越不准该值越小。因此MRR值越大越好。
Accuracy@N
对评估集Q个问题,每个问题i预测出N候选答案集Ci,Ci包含正确答案Ai即记为1。否则0。对每个问题求和,然后取平均。得到平均精度。
AveragedF1@N
表示问题
的F1值,基于标准答案Ai集和预测的答案集
。当预测的答案集不包含标准答案,F1值设置为0。其余情况F1值等于:
其中表示同时在答案集和预测集的个数。在命名实体识别任务中,常用这个F1值。例如一个句子,中国人生活在中国。包括标签实体[中国人]下标(0,2)和[中国]下标(6,7),如果命名预测为[中国人] (0,2)和[生活] (3,4),那么
=1,
等于2,
等于2。给案例的F1值=2x0.5x0.5/(0.5+0.5)=50%
MAP(平均的平均查准率)
表示平均查准率precision,其中,k表每个案例生成的答案集
中的第k个被检索出的答案句子。m表示案例的正确答案的句子数,n表示被检索出的句子数(答案集
的大小),如果m,n两者的最小值是0,即该问题的
,
表示标准的答案句的真实排名/模型给出的排名。
表示给出的排序k的句子是不是真实的答案句。1表示是,0表示不是。
举例:在语义重复问句的信息检索(IR)任务中,现在评估集有两个问句,与两个问句直接相关的答案(语义重复的问题)分别有4个和3个.对第一个问题的相关4个语义重复问句的rank分别为1,2,4,7,系统给出了所有正例;第二个问题相关的3个语义重复问句的rank分别为1,3,5,系统给出了所有正例。计算MAP
则对于第1个问句,为:
则对于第2个问句,为:
则MAP为:
网友评论