OC曲线与AUC值
ROC曲线绘制方法与AUC值计算方法
除了F1-Score以外,还有一类指标也可以很好的评估模型整体分类效力,即ROC曲线与AUC值。当然这二者其实是一一对应的,ROC(全称为Receiver operating characteristic,意为受试者特征曲线)是一个二维平面空间中一条曲线,而AUC则是曲线下方面积(Area Under Curve)的计算结果,是一个具体的值,例如下图所示:

其实ROC和AUC是一一对应的,因此二者其实是同一个评估指标。并且,ROC曲线同样也是基于混淆矩阵衍生的二级指标来进行构建,该指标的计算有些类似于交叉熵的计算过程,会纳入分类模型的分类概率来进行模型性能的评估。
对正例样本概率越大、负例样本概率越小,则模型性能越好。
ROC曲线绘制与AUC面积计算
们令FPR为平面坐标的横坐标点、TPR作为平面坐标的纵坐标点。
从1开始逐渐降低阈值。

当阈值完整从1移动0之后,我们即可把上述所有由(FPR,TPR)所组成的点绘制成一张折线图,该折线图就是ROC曲线图:

而此时,ROC曲线下方面积就是AUC值。
ROC曲线绘制另一种理解角度。根据上述描述,FPR实际上是0类概率累计,TPR实际上是1类概率累计,则自上而下观察True Class这一列,在原点为起始点时,每当出现一个1时,点就沿着Y轴正方向移动0.9,每当出现一个0时,点就沿着X轴正方向移动0.11,依次类推,最终从原点移动到(1,1)这个点的过程,就构成了ROC曲线。
ROC-AUC基本性质
首先,由于FPR和TPR都是在[0,1]区间范围内取值,因此ROC曲线上的点分布在横纵坐标都在[0,1]范围内的二维平面区间内。
其次,对于任意模型来说,ROC曲线越靠近左上方、ROC曲线下方面积越大,则模型分类性能越好。
根据点的移动轨迹构成ROC曲线角度来理解,刚开始移动时,是朝向X还是Y轴正向移动,其实是由模型输出概率最高的几个样本决定的,
如果这几个样本被判别错了(即实际样本类别为0),则刚开始从原点移动就将朝着X轴正方向移动,此时曲线下方面积会相对更小(相比刚开始朝着Y轴正方向移动的情况),
并且根据此前介绍的理论,此时由于模型对于“非常肯定”的样本都判错了,证明模型本身判别性能欠佳;
而反之,如果输出概率最高的头部几条样本都判断正确,样本真实类别确实属于1,则点开始移动时将朝向Y轴正方向移动,此时曲线下方面积就将相对更大,模型判别性能也将相对较好。

例如,在0.5为阈值的情况下,模型A和B同样准确率是80%,但模型A是将概率为0.6的1类样本误判为0类、将概率为0.4的样本误判为1类,尚且有情可原,毕竟0.6和0.4的模型输出结果代表着模型其实并没有对这两类样本的所属情况有非常强的肯定。
但对于模型B来说,有一条概率结果为0.8的样本被误判,则说明模型B对于一条“非常肯定”属于1类的样本判断是错误的,B模型的“错误”更加“严重”,模型判别性能相对较弱,ROC曲线下方面积相对较小。
值得注意的是,尽管当AUC取值小于0.5时,模型输出的概率结果本身并不可用,但此时“大多数样本都正好判别错误”其实也说明模型具有一定的判别效力,因此我们“或许”可以考虑通过将模型判别结果进行“反向处理”,即模型判别结果0、1互换,然后用这组数值进行预测。
不过,这样的结果哪怕有一定的预测作用但也没有任何的理论依据作为支撑,因此此时的模型仍然不可用。
ROC的概率敏感特性与偏态数据判别
此外,如果数据是偏态数据,由于ROC是对概率敏感的判别曲线(根据概率结果而非类别判别结果进行识别),因此ROC能够对模型对于偏态数据中少量样本的识别能力进行评估。
ROC-AUC对于模型在偏态样本上分类能力的评判,其实也会受到偏态样本“偏态”程度的影响
模型AUC值的差异其实会受到剩余0类样本数量的影响,剩余0类样本数量越多、两个模型AUC值的差异越大。
正是这种AUC值的差异会被0类样本“稀释”的性质,导致如果我们在利用偏态数据建模时,可以通过减少0类样本的样本量(如欠采样、数据聚类等)来提升1类样本在AUC计算结果时的权重。
ROC排序敏感
其实,如果我们更加深入的进行思考和观察,我们会发现,ROC-AUC其实是对根据模型预测的概率结果降序排序后的数据真实标签的各元素位置敏感,例如,对于下述A、B两个模型,尽管在部分样本的预测概率不同,但由于最终的按照预测概率降序排序的真实标签排序相同,因此两个模型最终绘制的ROC曲线相同。

总结
尽管同样是衡量模型整体评估性能,但相比之下,F1-Score更加倾向于判别模型对1类样本的识别能力,而ROC-AUC则没有这方面的倾向性。
因此,ROC-AUC和F1-Score之间的选取问题,同样也需要根据业务需要来进行选择,如果需要重点考虑1类是否被正确识别,则更加倾向选择F1-Score,但如果没有其他特殊要求,则一般会考虑使用ROC-AUC作为模型评估指标。
网友评论