美文网首页
统计学习方法(二)评价指标

统计学习方法(二)评价指标

作者: shijiatongxue | 来源:发表于2018-10-20 17:52 被阅读0次

    1 准确率

    评价分类器性能的指标一般是分类准确率(accuracy),其定义是:对于给定的测试数据集,分类器正确分类的样本数与总样本数之比。

    2 精确率与召回率

    对于二分类问题常用的评价指标是精确率(precision)与召回率(recall)。通常以关注的类为正类,其他为负类,分类器在测试数据集上的预测或正确或不正确,4种出现的总数分别记作:

    • TP——将正类预测为正类数;
    • FN——将正类预测为负类数;
    • FP——将负类预测为正类数;
    • NP——将负类预测为负类数。

    将其表示为混淆矩阵(confusion matrix)为:

      实际1 实际0
    预测1 TP FP
    预测0 FN TN

    精确率定义为P=\frac {TP} {TP+FP}召回率定义为R=\frac {TP} {TP+FN}

    3 F_1

    此外还有F_1值,是精确率和召回率的调和均值,即\frac {2}{F_1}=\frac{1}{P}+\frac{1}{R}F_1=\frac{2TP}{2TP+FP+FN}精确率和召回率都高时,F_1值也会高。

    4 个人心得

    4.1 引入新的评价指标的必要性

    对于二分类问题,准确率(accuracy)定义为\frac{TP+TN}{ALL},但是在某些实际问题中,该指标不太适用,比如说癌症的预测,对于一个患病的病人,我们可以在不做任何工作的情况下得到一个较高的准确率,只需要将每一个病人预测为非癌症。因为癌症的患病概率很低,我们将所有病人预测为非癌症,会得到一个较高的TN,由于非癌症又占多数,所以很容易将准确率较高水平。这说明了准确率对于该问题的缺陷。

    所以我们需要引入精确率(precision)和召回率(recall),还是对于癌症的预测问题,召回率可以反映,在所有患癌患者中,模型预测正确的概率。但是仅仅使用召回率也是会带来一个问题,如果对于每一个普通病人,都预测为癌症,那么召回率可以达到100%,这是很可怕的,因为正常人也会被诊断为癌症。然而,精确率可以评估,在你所预测的所有次数中,正确的概率。精确率很高不能说明这个模型很好,因为它可以极少预测为癌症,甚至只对确信的患者进行诊断。

    4.2 总结

    所以,精确率会使机器变得谨慎,不能随便预测为癌症,召回率使其变得大胆,预测癌症的概率会增加。在实际应用中,我们既想让模型准确预测“患癌”,又想让模型尽可能多地预测出来。通过引入F_1,我们可以很好地平衡这两个指标。


    参考文献:
    李航. 统计学习方法[M]. 清华大学出版社, 2012.

    相关文章

      网友评论

          本文标题:统计学习方法(二)评价指标

          本文链接:https://www.haomeiwen.com/subject/fvemzftx.html