分类metrics综述

-
dist=P/N
描述样本均衡性的分布,P为所有正样本,N为所有负样本。这里指P和N的ratio
注:如果metrics用到了不同的列,那么其值就会受到数据imbalance的影响。 -
Acc=TP+TN/(P+N)
-
Err=1-acc
-
Precision=TP/(FP+TP)= 1- FDR(False discovery rate)
-
Recall=TPR=TP/(TP+FN)=TP/P
-
FPR= false alarm rate (FAR)=1−TNR=FP/N
sensitivity -
inverse recall=TNR=TN/(FP+TN)=TN/N
specificity -
PS:由于recall和inverse recall都只用到了N或者P,所以这俩指标不受数据imbalance的影响
-
PS:acc也可由recall和inverse recall定义
acc = TPR × P/ALL + TNR × N/ALL
ALL=P+N -
FNR=miss rate =1-TPR=FN/P
-
PS:FPR,FNR,也只用到了N或者P,所以对imbalance数据不敏感。
-
Inverse precision = NPV(Negative predictive value)=TN/(FN+TN)= 1 - FOR(False omission rate)
-
Likelihood Ratio
LR+=TPR/FPR
LR-=(1-TPR)/FPR
DOR(Diagnostic odds ratio)=LR+/LR- -
ROC curve:
y轴TPR(召回率recall,分母为P),x轴FPR(把Negative的样本错误判成Positive的概率,分母为N)
对于离散输出的模型(例如某些决策树),那么他们只能产生ROC space中的一个点。
对于连续输出的模型,通过控制阈值的不同,可以绘制出完整的ROC曲线。 -
AUC
由于ROC没有一个标量让我们来比较。所以我们一般计算AUC来作为参考的比较值。AUC adds areas of trapezoids1 of the ROC curve, AUC score can be calculated by adding the areas of trapezoids of the AUC measure
不过AUC也有它的局限,当我们的环境对阈值敏感的时候,有可能低auc的模型,在一些区域会outperform高auc的模型:

-
PR curve:
y轴Precision,x轴Recall
y=TP/(TP+FN),x=TP/(TP+FN)
image.png
PS:
Refer:
【1】 Classification assessment method: a detailed tutorial
【2】 The Relationship Between Precision-Recall and ROC Curves
网友评论