性能度量
对模型泛化能力的评价标准就是性能度量,在预测任务中,要评估学习器的性能,就是要把学习器预测结果与真实标记进行比较。
回归任务最常用的性能度量是均方误差(公式略),本节下面主要介绍分类任务中常用的性能度量。
错误率与精度
错误率是分类错误的样本占样本总数的比例,精度则是分类正确的样本数占样本总数的比例。
查准率、查全率与F1
WX20201105-141924.png一般来说,查准率高时,查全率往往偏低,而查全率高时,查准率往往偏低。在很多情形下,我们可根据学习器的预测结果对样本进行排序,排在前面的是学习器认为最可能是正例的样本,按此顺序逐个将样本作为正例进行预测,则每次可以计算出当前的查全率和查准率,以查准率为纵轴、查全率为横轴作图就得到了“P-R曲线”,如下图所示:
WX20201105-142717.png在进行比较时,若一个学习器的P-R曲线被另一个曲线包住,则可断言后者的性能优于前者。若曲线发生交叉时,比较合理的判据是比较P-R曲线下面积大小,但这个值不易估算,因此出现了平衡点(Break-Event Point,检查BEP),即时的取值。
但BEP还是过于简化了些,更常用的是F1度量:
在一些应用中,对查准率和查全率的重视程度不同,此时可用的一般形式——,它定义为:
当时退化为标准的;时查全率有更大的影响,时查准率有更大的影响。
ROC和AUC
很多学习器视为测试样本产生一个实值或概率预测,然后将这个预测值与一个分类与之进行比较,若大于阈值则分为正类,否则为反类。ROC全称是“受试者工作特征曲线”,与P-R曲线类似,它是将学习器的预测结果对样例进行排序,按此顺序逐个把样本作为正例预测,每次计算出两个重要量的值,分别以他们为横纵轴作图就得到了ROC曲线,其中,其纵轴是“真正例率(TPR)”,横轴是“假正例率(FPR)”,即:
如下图所示:
WX20201105-145223.png同样的,若一个学习器的ROC曲线被另一个完全包住,则可断言后者的性能优于前者,若发生交叉,则较为合理的判据是比较ROC曲线下的面积,即AUC(Area Under ROC Curve)
代价敏感错误率和代价曲线
为权衡不同类型错误所造成的不同损失,可为错误赋予“非均等代价”,在非均等代价下,我们所希望的是最小化“总体代价”,且ROC曲线不能直接反映出学习器的期望总体代价,而代价曲线可以,如下图所示:
WX20201105-150020.pngemmmmmm,公式略,想看的可以去翻书.......
网友评论