这三差是针对泛化误差,考量的是模型泛化能力,泛化误差可分解成偏差、方差、噪声之和,这也是为什么写三差的原因;
一、三差定义
1、模型偏差bias
偏差是指预测结果与真实值之间的差异,排除噪声的影响,偏差更多的是针对某个模型输出的样本误差,偏差是模型无法准确表达数据关系导致,比如模型过于简单,非线性的数据关系采用线性模型建模,偏差较大的模型是错的模型;
2、模型方差variance
模型方差不是针对某一个模型输出样本进行判定,而是指多个(次)模型输出的结果之间的离散差异,注意这里写的是多个模型或者多次模型,即不同模型或同一模型不同时间的输出结果方差较大,方差是由训练集的数据不够导致,一方面量 (数据量) 不够,有限的数据集过度训练导致模型复杂,另一方面质(样本质量)不行,测试集中的数据分布未在训练集中,导致每次抽样训练模型时,每次模型参数不同,输出的结果都无法准确的预测出正确结果;
3、残差(噪声)
残差是指预测结果与真实值之间的差异,这么一看,和模型偏差的定义很接近,两者的区别是偏差模型拟合度不够导致,而残差是模型准确,但仍然与真实值有一定的差异,这里可以理解成噪声,噪声是随机的,意味着不可预测,而偏差不是随机产生的,可通过一定的特征工程进行预测;
a、欠拟合:偏差过大,做特征工程、减小(弱)正则化系数;
b、过拟合:方差过大,可增加样本、减少特征、增加(强)正则化系数;偏差和方差贯穿整个建模过程,因此关注偏差和方差的影响,能够找到模型优化方向,而不是盲目的增加特征,增加样本不断试验,只有深刻认识到其中的原因,才能一步一步的提升模型的准确率;
作者:随心
链接:https://zhuanlan.zhihu.com/p/50214504
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。
网友评论