美文网首页
模型测试集评价指标(模型泛化能力)

模型测试集评价指标(模型泛化能力)

作者: 斗战胜佛oh | 来源:发表于2021-01-04 15:54 被阅读0次

混淆矩阵

- 预测为真 预测为假
标签为真 TP FN
标签为假 FP TN

正确率(accuracy)

image.png

该评价指标容易受到正负样本不平衡影响,若正样本数量很少,也可以得到高正确率的模型,但是并没有实际作用(模型基本没学到正样本的特征)。为了解决这一问题,因此提出了准确率和召回率。

准确率(precision)

image.png

该评价指标衡量正确预测正样本占实际预测为正样本的比例。

召回率(recall)

image.png

该评价指标可以衡量正确预测正样本占正样本的比例。

F1值

一般来说模型的召回率越高,模型的准确率越低;模型的准确率越高,召回率越低。(越贪心犯错的概率就越大)那麽可以看出过高的召回率或者过高的准确率都不是理想的指标,因此就提出了采用召回率和准确率的调和平均值F1值作为评价指标:


image.png

为什莫要采用调和平均数?

四种平均数大小关系:调和平均数≤几何平均数≤算术平均数≤平方平均数。可以看出调和平均数最接近较小值。

相关参数选择

如果是多分类情况下,在使用F1分数时可以选择是micro还是macro,macro指对单个类别计算F1值,再用其算数平均值作为最终结果;而micro将全部类别当作一个整体,只计算1次F1值。因此macro受到样本较少类别影响大,micro受样本较多类别影响大。

灵敏度(sensitivity)

灵敏度其实就是召回率


image.png

特异度(specificity)

image.png

该评价指标可以衡量正确预测负样本占负样本的比例。

1 - 特异度

image.png

该评价指标可以衡量错误预测负样本占负样本的比例。

ROC曲线

灵敏度又称为真正率,1-特异度又称为假正率,可以看出真正率和假正率都是基于真实样本的条件概率,因此可以有效解决正负样本不平衡的问题。真正率关心的是全体正样本中有多少被预测为真,假正率是关心全体负样本中有多少被预测为真。ROC曲线就是在不同的threshold的条件下(预测结果大于threshold记为预测结果为真,反之为假),将其对应的真正率和假正率作为(y,x)坐标绘制而成。如下图所示:

在这里插入图片描述

AUC(area under curve)

为ROC曲线下的面积,曲线下面积越大越好

参考资料:

https://www.zhihu.com/question/30643044

相关文章

  • 模型测试集评价指标(模型泛化能力)

    混淆矩阵 -预测为真预测为假标签为真TPFN标签为假FPTN 正确率(accuracy) 该评价指标容易受到正负样...

  • 5、sklearn模型建立及评估

    前置工作 填充数据 编码分类变量 划分数据集 模型搭建 模型评估 模型评估是为了知道模型的泛化能力,主要指标有:1...

  • 测试集与训练集

    泛化 大家都希望训练集后获得的模样能够识别出从未见过的样本,这种能力就是泛化能力,所以测试集不会参与模型的训练,而...

  • 深度学习(九)正则化

    模型在之前为观测到的输入上表现良好的能力被称为泛化,泛化误差也可以被称为测试误差。模型在训练集上不能得到足够低的训...

  • 机器学习评估方法

    机器学习的目的是产生泛化能力好的模型,那么什么样的模型才是泛化能力好的模型呢,这需要按照一定的评估方法和度量指标去...

  • 2019-02-15

    如何客观地划分训练集/验证集/测试集,才能训练出一个优秀的模型,让它的泛化能力更加的强?

  • 交叉验证(Cross Validation)比较

    模型评价的目的:通过模型评价,我们知道当前训练模型的好坏,泛化能力如何?从而知道是否可以应用在解决问题上,如果不行...

  • 有监督学习算法模型评估指标

    模型评估指标是指将训练后的模型用于验证集或者测试集,计算预测结果与真实值的接近程度;对于前者(验证集),模型指标计...

  • 常用的机器学习模型评估指标

    对机器学习模型的泛化性能进行评估,通常需要衡量模型的泛化能力,也就是性能度量。常见的性能度量指标包括:准确率,查准...

  • 机器学习中的训练集 验证集 测试集的关系

    1.划分测试集目的 为了了解一个模型对新样本的泛化能力,唯一的办法是:让已经训练好的模型真正的处理新的样本。 解决...

网友评论

      本文标题:模型测试集评价指标(模型泛化能力)

      本文链接:https://www.haomeiwen.com/subject/muevoktx.html