美文网首页传统机器学习&深度学习
机器学习性能评估指标汇总

机器学习性能评估指标汇总

作者: Kevin_bin | 来源:发表于2016-12-22 15:40 被阅读2622次

    跑完分类模型(Logistic回归、决策树、神经网络等),我们经常面对一大堆模型评估的报表和指标,如ACC、ROC、AUC等,对以上提到的各个评估指标逐一点评,并力图表明:

    指标分类

    学习分类 性能指标
    分类 Accuracy、precision、Recall、F1 Score、ROC Curve、PR Curve、AUC、
    回归 MAE、MSE

    分类

    混淆矩阵

    1代表正类,0代表负类,Predicted代表预测,Actual代表实际。

    Predicted Predicted 合计
    <u>1</u> <u>0</u>
    Actual <u>1</u> D: (TP) -> 2814 C: (FN) -> 36 D+C: Actual Positive
    Actual <u>0</u> B: (FP) -> 235 A: (TN) -> ** 248 ** A+B: Actual Negative
    合计 B+D: Predicted Positive A+C: Predicted Negative
    • A: (True Negative) 将负类预测为负类数(正确预测负例),<u>(TN | 真负,0->0)</u>
    • B: (False Positive) 将负类预测为正类数,<u>(FP | 假正, 0->1)</u> → 误报
    • C: (False Negative) 将正类预测为负类数,<u>(FN | 假负, 1->0) </u>→ 漏报
    • D: (True Positive) 将正类预测为正类数(正确预测正例),<u>(TP | 真正, 1->1) </u>
    • A+B: (Actual Negative) 实际上负例的数量
    • C+D: (Actual Positive) 实际上正例的数量
    • A+C: (Predicted Negative) 预测的负例数量
    • B+D: (Predicted Positive) 预测的正例数量

    实际的数据中,客户有两种可能good AND bad,其模型预测同样有两种可能,预测结果可能与实际数据匹配或不匹配。如果匹配则出现两种可能,第一种True Positive(1->1):实际是Positive,预测成Positive,第二种True Negative(0->0):实际是Negative,预测成Negative;如果不匹配(犯错)则出现两种可能,第一种False Negative(1->0):实际是Positive,预测成Negative,第二种False Positive(0->1):实际是Negative,预测成Positive。


    准确(分类)率 VS. 误分类率:

    准确(分类)率(accuracy) = 正确预测的正反例数 / 总数

    • ACC = (TP+TN) / (TP+TN+FP+FN)
    • = (A+D) / (A+B+C+D)

    误分类率 = 错误预测的正反例数 / 总数

    • 误分类率 = (FP+FN) / (TP+TN+FP+FN) = 1 - ACC
    • = (B+C) / (A+B+C+D)

    召回率 VS.精确率 → F1 Score

    召回率(Recall) = 正确预测到的正例数 / 实际正例总数

    • Recall (True Positive Rate or Sensitivity) = TP / (TP+FN)
    • = D / (C+D)

    精确率(Precision) = 正确预测到的正例数 / 预测正例总数

    • Precision (Positive Predicted Value,PV+) = TP / (TP+FP)
    • = D /(B+D)

    F1 Score

    F1 Score为精准率和召回率的<u>调和均值</u>

    • 2 / F1 = 1 / P + 1 / R
    • F1 Score = 2TP / (2TP + FP + FN)
    • 准确率(accuracy)和精确率(precision)都高的情况下,F1 Score也会显得很高。

    精确率是针对预测结果而言的,表示的是预测为正的样本中有多少是真正的正样本,预测为正就有两种可能,一种是把正类预测为正类(TP),另一种就是把负类预测为正类(FP),即 P = TP / (TP+FP)

    召回率是针对原来样本而言的,表示的是样本中的正例有多少被预测正确,同样也有两种可能,一种是把原来的正类预测成正类(TP),另一种就是把原来的正类预测为负类(FN),即 R = TP / (TP+FN)

    精确率:预测正例与预测结果的比值,召回率:预测正例与实际样本正例的比值。


    ROC 曲线

    维基百科定义

    In signal detection theory, a receiver operating characteristic (ROC), or simply ROC curve, is a graphical plot which illustrates the performance of a binary classifier system as its discrimination threshold is varied.

    逻辑回归里面,对于正负例的界定,通常会设一个阈值,大于阈值的为正类,小于阈值为负类。如果我们减小这个阀值,更多的样本会被识别为正类。提高正类的识别率,但同时也会使得更多的负类被错误识别为正类。为了直观表示这一现象,此处引入ROC,ROC曲线可以用于评价一个分类器好坏。

    ROC关注两个指标:

    True Positive Rate: TPR = TP / (TP+FN) → 将正例分对的概率
    Fales Positive Rate: FPR = FP / (FP+TN) → 将负例错分为正例的概率

    在 ROC 空间中,每个点的横坐标是 FPR,纵坐标是 TPR,这也就描绘了分类器在 TP(真正率)和 FP(假正率)间的 trade-off。

    ROC curve

    ROC曲线中的四个点和一条线:

    • 点(0,1):即FPR=0, TPR=1,意味着FN=0且FP=0,将所有的样本都正确分类;
    • 点(1,0):即FPR=1,TPR=0,最差分类器,避开了所有正确答案;
    • 点(0,0):即FPR=TPR=0,FP=TP=0,分类器预测所有的样本都为负样本(negative);
    • 点(1,1):分类器实际上预测所有的样本都为正样本。
    • 总之:ROC曲线越接近左上角,该分类器的性能越好。

    AUC

    AUC(Area Under Curve)被定义为ROC曲线下的面积,显然这个面积的数值不会大于1。随机挑选一个正样本以及一个负样本,分类器判定正样本的值高于负样本的概率就是 AUC 值。
    总之:AUC值越大的分类器,正确率越高。

    • AUC = 1:绝对完美分类器,理想状态下,100%完美识别正负类,不管阈值怎么设定都能得出完美预测,绝大多数预测不存在完美分类器;
    • 0.5<AUC<1:优于随机猜测。这个分类器(模型)妥善设定阈值的话,可能有预测价值;
    • AUC=0.5:跟随机猜测一样(例:随机丢N次硬币,正反出现的概率为50%),模型没有预测价值;
    • AUC<0.5:比随机猜测还差;但只要总是反预测而行,就优于随机猜测,因此不存在AUC<0.5的状况。
    AUC

    既然已经这么多评价标准,为什么还要使用ROC和AUC呢?因为ROC曲线有个很好的特性:当测试集中的正负样本的分布变化的时候,ROC曲线能够保持不变。在实际的数据集中经常会出现类不平衡(class imbalance)现象,即负样本比正样本多很多(或者相反)

    AUC是ROC的积分(曲线下面积)

    补充:Gini coefficient

    gini系数通常被用来判断收入分配公平程度,具体请参阅wikipedia-基尼系数

    Gini coefficient 是指绝对公平线(line of equality)和洛伦茨曲线(Lorenz Curve)围成的面积与绝对公平线以下面积的比例,即gini coefficient = A面积 / (A面积+B面积) 。

    用在评判分类模型的预测效力时,是指ROC曲线曲线和中线围成的面积与中线之上面积的比例。

    因此Gini coefficient与AUC可以互相转换:

    gini = A / (A + B) = (AUC - C) / (A + B) = (AUC -0.5) / 0.5 = 2AUC-1*

    回归

    平均绝对误差

    平均绝对误差MAE(Mean Absolute Error)又被称为 l1l1 范数损失(l1-norm loss):

    平均平方误差

    平均平方误差 MSE(Mean Squared Error)又被称为 l2l2 范数损失(l2-norm loss):

    相关文章

      网友评论

        本文标题:机器学习性能评估指标汇总

        本文链接:https://www.haomeiwen.com/subject/vwqhvttx.html