1.混淆矩阵
首先,在理解什么是AUC之前,先要理解什么是混淆矩阵,这样对我们理解AUC会有很大的帮助。
混淆矩阵中有着TN、FP、FN、TP的概念,其意义如下:
True negative(TN),称为真阴率,表明实际是负样本预测成负样本的样本数。
False positive(FP),称为假阳率,表明实际是负样本预测成正样本的样本数。
False negative(FN),称为假阴率,表明实际是正样本预测成负样本的样本数。
True positive(TP),称为真阳率,表明实际是正样本预测成正样本的样本数。
对上述概念进行组合,就产生了如下的混淆矩阵:
混淆矩阵
然后,由此引出True Positive Rate(真阳率)、False Positive(伪阳率)两个概念:
2.AUC
按照定义,AUC即ROC曲线下的面积,而ROC曲线的横轴是FPRate,纵轴是TPRate,当二者相等时,即y=x,如下图,表示的意义是:对于不论真实类别是1还是0的样本,分类器预测为1的概率是相等的。
而我们希望分类器达到的效果是:对于真实类别为1的样本,分类器预测为1的概率(即TPRate),要大于真实类别为0而预测类别为1的概率(即FPRate),这样的ROC曲线是在y=x之上的,因此大部分的ROC曲线长成下面这个样子:
最理想的情况下,没有真实类别为1而错分为0的样本,TPRate一直为1,于是AUC为1,这便是AUC的极大值。
下面我举一个例子:有8个样本
得到混淆矩阵如下:
进而算得TPRate=3/4,FPRate=2/4,得到ROC曲线:
最终得到AUC为0.625。
网友评论