统计学习方法（二）评价指标

作者: shijiatongxue | 来源:发表于2018-10-20 17:52 被阅读0次

统计学习方法（二）评价指标
机器学习中常用的误差指标
工作分析质量鉴定【工作分析与职位设计7】
机器学习资料
李航统计学习方法第二版
统计学习方法第二章：感知机(perceptron)算法及pyth
统计学习方法第三章：k近邻法(k-NN),kd树及python实
统计学习方法第五章：决策树(decision tree),CAR
统计学习方法第四章：朴素贝叶斯法(naive Bayes)，贝叶
统计学习方法第五章：决策树(decision tree),ID3

1 准确率

评价分类器性能的指标一般是分类准确率（accuracy），其定义是：对于给定的测试数据集，分类器正确分类的样本数与总样本数之比。

2 精确率与召回率

对于二分类问题常用的评价指标是精确率（precision）与召回率（recall）。通常以关注的类为正类，其他为负类，分类器在测试数据集上的预测或正确或不正确，4种出现的总数分别记作：

$TP$ ——将正类预测为正类数；
$FN$ ——将正类预测为负类数；
$FP$ ——将负类预测为正类数；
$NP$ ——将负类预测为负类数。

将其表示为混淆矩阵（confusion matrix）为：

	实际1	实际0
预测1	$TP$	$FP$
预测0	$FN$	$TN$

精确率定义为 $P=\frac {TP} {TP+FP}$ 召回率定义为 $R=\frac {TP} {TP+FN}$

3 $F_1$ 值

此外还有 $F_1$ 值，是精确率和召回率的调和均值，即 $\frac {2}{F_1}=\frac{1}{P}+\frac{1}{R}$ 或 $F_1=\frac{2TP}{2TP+FP+FN}$ 精确率和召回率都高时， $F_1$ 值也会高。

4 个人心得

4.1 引入新的评价指标的必要性

对于二分类问题，准确率（accuracy）定义为 $\frac{TP+TN}{ALL}$ ，但是在某些实际问题中，该指标不太适用，比如说癌症的预测，对于一个患病的病人，我们可以在不做任何工作的情况下得到一个较高的准确率，只需要将每一个病人预测为非癌症。因为癌症的患病概率很低，我们将所有病人预测为非癌症，会得到一个较高的 $TN$ ，由于非癌症又占多数，所以很容易将准确率较高水平。这说明了准确率对于该问题的缺陷。

所以我们需要引入精确率(precision)和召回率(recall)，还是对于癌症的预测问题，召回率可以反映，在所有患癌患者中，模型预测正确的概率。但是仅仅使用召回率也是会带来一个问题，如果对于每一个普通病人，都预测为癌症，那么召回率可以达到100%，这是很可怕的，因为正常人也会被诊断为癌症。然而，精确率可以评估，在你所预测的所有次数中，正确的概率。精确率很高不能说明这个模型很好，因为它可以极少预测为癌症，甚至只对确信的患者进行诊断。

4.2 总结

所以，精确率会使机器变得谨慎，不能随便预测为癌症，召回率使其变得大胆，预测癌症的概率会增加。在实际应用中，我们既想让模型准确预测“患癌”，又想让模型尽可能多地预测出来。通过引入 $F_1$ 值，我们可以很好地平衡这两个指标。

参考文献：
李航. 统计学习方法[M]. 清华大学出版社, 2012.

网友评论

本文标题：统计学习方法（二）评价指标

本文链接：https://www.haomeiwen.com/subject/fvemzftx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！