模型测试集评价指标（模型泛化能力）

作者: 斗战胜佛oh | 来源:发表于2021-01-04 15:54 被阅读0次

模型测试集评价指标（模型泛化能力）
5、sklearn模型建立及评估
测试集与训练集
深度学习（九）正则化
机器学习评估方法
2019-02-15
交叉验证（Cross Validation）比较
有监督学习算法模型评估指标
常用的机器学习模型评估指标
机器学习中的训练集验证集测试集的关系

混淆矩阵

-	预测为真	预测为假
标签为真	TP	FN
标签为假	FP	TN

正确率(accuracy)

image.png

该评价指标容易受到正负样本不平衡影响，若正样本数量很少，也可以得到高正确率的模型，但是并没有实际作用（模型基本没学到正样本的特征）。为了解决这一问题，因此提出了准确率和召回率。

准确率(precision)

image.png

该评价指标衡量正确预测正样本占实际预测为正样本的比例。

召回率(recall)

image.png

该评价指标可以衡量正确预测正样本占正样本的比例。

F1值

一般来说模型的召回率越高，模型的准确率越低；模型的准确率越高，召回率越低。（越贪心犯错的概率就越大）那麽可以看出过高的召回率或者过高的准确率都不是理想的指标，因此就提出了采用召回率和准确率的调和平均值F1值作为评价指标：

image.png

为什莫要采用调和平均数？

四种平均数大小关系：调和平均数≤几何平均数≤算术平均数≤平方平均数。可以看出调和平均数最接近较小值。

灵敏度(sensitivity)

灵敏度其实就是召回率

image.png

特异度(specificity)

image.png

该评价指标可以衡量正确预测负样本占负样本的比例。

1 - 特异度

image.png

该评价指标可以衡量错误预测负样本占负样本的比例。

ROC曲线

灵敏度又称为真正率，1-特异度又称为假正率，可以看出真正率和假正率都是基于真实样本的条件概率，因此可以有效解决正负样本不平衡的问题。真正率关心的是全体正样本中有多少被预测为真，假正率是关心全体负样本中有多少被预测为真。ROC曲线就是在不同的threshold的条件下（预测结果大于threshold记为预测结果为真，反之为假），将其对应的真正率和假正率作为（y，x）坐标绘制而成。如下图所示：

在这里插入图片描述

AUC(area under curve)

为ROC曲线下的面积，曲线下面积越大越好

参考资料：

https://www.zhihu.com/question/30643044

网友评论

本文标题：模型测试集评价指标（模型泛化能力）

本文链接：https://www.haomeiwen.com/subject/muevoktx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

模型测试集评价指标（模型泛化能力）

混淆矩阵

正确率(accuracy)

准确率(precision)

召回率(recall)

F1值

为什莫要采用调和平均数？

相关参数选择

灵敏度(sensitivity)

特异度(specificity)

1 - 特异度

ROC曲线

AUC(area under curve)

参考资料：

相关文章

模型测试集评价指标（模型泛化能力）

5、sklearn模型建立及评估

测试集与训练集

深度学习（九）正则化

机器学习评估方法

2019-02-15

交叉验证（Cross Validation）比较

有监督学习算法模型评估指标

常用的机器学习模型评估指标

机器学习中的训练集验证集测试集的关系

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读