精确率、召回率、F1、ROC、AUC

作者: daihp1022 | 来源:发表于2019-12-04 09:25 被阅读0次

指标
机器学习中的常用评价指标汇总
看完理解ROC与AUC
【转】精确率、召回率、F1 值、ROC、AUC
精确率、召回率、F1、ROC、AUC
精确率、召回率、F1、ROC、AUC
分类问题评价标准及Python实现
面试题目总结-机器学习算法—评价指标
机器学习分类问题评估指标（准确率、召回率、F1 ，P-R 曲线，
模型评估指标

精确率、召回率、F1

精确率 $precision= \frac{TP} {(TP + FP)}$ ，表示预测正确的正样本占预测正样本的比例，反映预测正样本的精度；
召回率 $recall= \frac{TP} {(TP + FN)}$ ，表示预测正确的正样本占实际正样本的比例，反映预测正样本的覆盖程度。

有时候单独的看精确率和召回率并不能很好的表示一个分类器的好坏，这时候就需要F1了。
$F1 = \frac{2*precision*recall}{(precision+recall)}$

ROC、AUC

先介绍两个概念：
1）真正类率（ $TPR$ ）， $TPR = \frac{TP} {(TP + FN)}$ ，意义是所有真实类别为1的样本中，预测类别为1的比例；（跟召回率一个公式）
2）假正类率（ $FPR$ ）， $FPR = \frac{FP}{(FP + TN)}$ ，意义是所有真实类别为0的样本中，预测类别为1的比例。

假设对于分类器C，当一个样本是正类的概率大于某一个阈值（一般为0.5）时，我们就将其归为正类。那么对于一个分类器和固定的数据集而言，如果这个阈值不断的变化（从0到1），我们也就得到了一系列的返回结果。每一个返回结果我们都可以得到一对 $(FPR, TPR)$ 。我们将这一系列的 $(FPR, TPR)$ 画到以 $FPR$ 为横轴，以 $TPR$ 为纵轴的坐标系中，我们就得到了所谓 $ROC$ 曲线。

image

理想情况下，我们希望 $TPR$ 接近于1， $FPR$ 接近于0。

考虑两种极端的情况：
1）如果阈值=0，那么所有的检测对象都标记为正类并返回。此时， $TPR=1$ , $FPR=1$ ，对应于点（1,1）；
2）如果阈值=1，那么所有的检测对象都标记为负类，没有返回。此时， $TPR=0$ ， $RPR=0$ ，对应于点（0,0）。

明白了 $ROC$ ， $AUC$ 就很简单了， $AUC$ （Area Under Curve）表示 $ROC$ 曲线下的面积， $AUC$ 的取值为0.5-1。我们的期望是 $AUC$ 越大越好。我们希望分类器达到的效果是：对于真实类别为1的样本，分类器预测为1的概率（即 $TPR$ ），要大于真实类别为0而预测类别为1的概率（即 $FPR$ ），即 $y＞x$ 。

$AUC$ 的优势： $AUC$ 的计算方法同时考虑了分类器对于正例和负例的分类能力，在样本不平衡的情况下，依然能够对分类器作出合理的评价。例如在反欺诈场景，设欺诈类样本为正例，正例占比很少（假设0.1%），如果使用准确率评估，把所有的样本预测为负例，便可以获得99.9%的准确率。但是如果使用 $AUC$ ，把所有样本预测为负例， $TPR$ 和 $FPR$ 同时为0（没有Positive），与(0,0) (1,1)连接，得出 $AUC$ 仅为0.5，成功规避了样本不均匀带来的问题。

AUC计算公式

直接计算面积
最直观的，根据 $AUC$ 这个名称，我们知道，计算出ROC曲线下面的面积，就是 $AUC$ 的值。事实上，这也是在早期 Machine Learning文献中常见的 $AUC$ 计算方法。由于我们的测试样本是有限的。我们得到的AUC曲线必然是一个阶梯状的。因此，计算的AUC也就是这些阶梯下面的面积之和。这样，我们先把score排序(假设score越大，此样本属于正类的概率越大)，然后一边扫描就可以得到我们想要的 $AUC$ 。但是，这么做有个缺点，就是当多个测试样本的score相等的时候，我们调整一下阈值，得到的不是曲线一个阶梯往上或者往右的延展，而是斜着向上形成一个梯形。此时，我们就需要计算这个梯形的面积。由此，我们可以看到，用这种方法计算 $AUC$ 实际上是比较麻烦的。
在有 $M$ 个正样本， $N$ 个负样本的数据集里。一共有 $MN$ 对样本（一对样本即，一个正样本与一个负样本）。统计这 $MN$ 对样本里，正样本的预测概率大于负样本的预测概率的个数。
一个关于 $AUC$ 的很有趣的性质是，它和Wilcoxon-Mann-Witney Test是等价的。这个等价关系的证明留在下篇帖子中给出。而Wilcoxon-Mann-Witney Test就是测试任意给一个正类样本和一个负类样本，正类样本的score有多大的概率大于负类样本的score。有了这个定义，我们就得到了另外一中计算AUC的办法：得到这个概率。我们知道，在有限样本中我们常用的得到概率的办法就是通过频率来估计之。这种估计随着样本规模的扩大而逐渐逼近真实值。这和上面的方法中，样本数越多，计算的AUC越准确类似，也和计算积分的时候，小区间划分的越细，计算的越准确是同样的道理。具体来说就是统计一下所有的 $M×N$ ( $M$ 为正类样本的数目， $N$ 为负类样本的数目)个正负样本对中，有多少个组中的正样本的score大于负样本的score。当二元组中正负样本的 score相等的时候，按照0.5计算。然后除以MN。实现这个方法的复杂度为O(n^2)。 $n$ 为样本数（即 $n=M+N$ ）
$AUC=\frac{\sum_iI(P_{正样本},P_{负样本})}{MN}$
其中
$\begin{equation} \left\{ \begin{aligned} \ I(P_{正样本},P_{负样本})&=1, if(P_{正样本}>P_{负样本}) \\ I(P_{正样本},P_{负样本})&=0.5, if(P_{正样本}=P_{负样本})\\ I(P_{正样本},P_{负样本})&=0, if(P_{正样本}<P_{负样本})\\ \end{aligned} \right. \end{equation}$
第三种方法实际上和上述第二种方法是一样的，但是复杂度减小了。它也是首先对score从大到小排序，然后令最大score对应的sample的rank为 $n$ ，第二大score对应sample的rank为 $n-1$ ，以此类推。每一个排序值然后把所有的正类样本的rank相加，再减去 $\frac{M(M+1)}{2}$ 种两个正样本组合的情况。得到的就是所有的样本中有多少对正类样本的score大于负类样本的score。然后再除以 $M×N$ 。即
$AUC=\frac{\sum_{i\in{positiveSamples}}Rank_i-\frac{M(M+1)}{2}}{MN}$
公式解释：
（1）每个正类排序值都意味着该正类样本的score大于的样本数(包括包括其他正类和自身)。因此 $\sum_{i\in{positiveSamples}}Rank_i$ 代表所有正类样本score大于其他样本的样本对数。
（2）对于排序最高的正类，需要剔除掉（正样本，正样本）对，共有 $M$ 个，对于排序第二高的正类，同样需要剔除掉（正样本，正样本）对，共有 $M-1$ , 依次类推，排序最后一个正样本需要剔除 $M-M$ 个正样本对。因此总共需要剔除的样本对的数量为：
$M+(M-1)+...+(M-M)=M(M+1)-\frac{M(1+M)}{2}=\frac{M(M+1)}{2}$
（3）由(1)(2)可得正类样本大于负类样本的样本对数。

auc代码

def cal_auc(labels, preds):
    posNums = len(list(filter(lambda r: r == 1, labels)))
    negNums = len(list(filter(lambda r: r == 0, labels)))
    merge = list(zip(labels, preds))
    data = sorted(merge, key=lambda r: r[1])
    data_with_index = enumerate(data)
    pos_data_with_index = list(filter(lambda r: r[1][0] == 1, data_with_index))
    # index值从0开始，因为每个rank值等于index+1
    pos_rank = list(map(lambda r: r[0] + 1, pos_data_with_index))
    need_cut = posNums*(posNums+1)/2
    auc = (sum(pos_rank) - need_cut)/(posNums*negNums)
    return auc


if __name__ == '__main__':
    labels = [1, 1, 1, 0, 0]
    preds = [0.8, 0.7, 0.6, 0.45, 0.4]
    print(cal_auc(labels, preds))

参考

https://www.jianshu.com/p/d9990ae8172e
https://www.zhihu.com/question/39840928/answer/241440370
https://blog.csdn.net/qq_22238533/article/details/78666436

指标
准确率精确率召回率 ROC&AUC
机器学习中的常用评价指标汇总
机器学习中的评价指标简要介绍精度、精确率、召回率、P-R曲线、F1 值、TPR、FPR、ROC、AUC等指标，还...
看完理解ROC与AUC
混淆矩阵、AUC、ROC，傻傻分不清楚？来看这篇就对了 - 知乎对准确率、精确率、召回率、AUC、ROC的理解 ...
【转】精确率、召回率、F1 值、ROC、AUC
【在知乎上看到一篇介绍精确率、召回率、F1 值、ROC、AUC的文章，通俗易懂】原文链接正好最近刚做了个项目是关...
精确率、召回率、F1、ROC、AUC
精确率、召回率、F1 精确率 = TP / (TP + FP)，表示返回的正例中真正例所占的比例；召回率 = TP...
精确率、召回率、F1、ROC、AUC
相关概念 (1) TP：真正类，预测的正类为真，(2) FP：假正类，预测的正类为假(3) TN：真负类，预测的负...
分类问题评价标准及Python实现
分类问题常见的标准：准确率，精确率，召回率，F1-Score， AUC, ROC曲线, P-R曲线一、定义分类...
面试题目总结-机器学习算法—评价指标
准确率，精确率，召回率和F1 准确率(Accuracy), 精确率(Precision), 召回率(Recall)...
机器学习分类问题评估指标（准确率、召回率、F1 ，P-R 曲线，
本文主要介绍二分类场景下的评估指标，包括准确率、召回率、F1 ，P-R 曲线，ROC 曲线和 AUC。一、混淆...
模型评估指标
混淆矩阵、精确率、召回率，ROC、AUC 对于二分类问题来说，所有的问题被分为0和1两类，混淆矩阵是2*2的矩阵：...