模型方差与偏差

作者: 0过把火0 | 来源:发表于2018-10-17 16:37 被阅读3次

机器学习基础 | 偏差与方差
Bagging为什么能降低过拟合
模型方差与偏差
机器学习应用建议（二）
偏差和方差
集成学习（1）模型误差与集成学习
bagging，boosting的方差和偏差
机器学习系列2：误差、梯度下降、交叉验证、归一化和评价指标
机器学习作业5-偏差和方差
XGBoost算法思想

序

面试过程中经常会被问到关于方差和偏差的概念以及比对。

偏差

偏差度量了学习算法的期望预测值与真实结果间的偏离程度，也就是刻画了模型本身的拟合能力，也就是偏差越大，意味着预测值越偏离真实数据。

高偏差

最直观的感受就是，如果训练误差很大，测试误差与训练误差相当，那么此时表明模型对训练数据的拟合并不是很好，这就是高偏差。

方差

方差刻画了同样大小训练集的变动所导致的学习性能的变化，即刻画了数据扰动所造成的影响。说白了就是对预测值方差的描述，方差越大，则数据的分布越分散。

高方差

如果训练误差远高于测试误差，那么说明模型过拟合，此时表明模型的方差较高；

上述所指的模型误差是相对的，例如，人类肉眼识别猫狗的误差若在0.5%左右的话，那么我们的模型误差在其附近是合理的，因此，对于这种相对的误差而言，将其称作是先验知识，也就是贝叶斯误差。

偏差方差不可同求

偏差和方差不能同时满足。

在模型训练初期，由于迭代轮数较小，此时算法未能完全学习到训练集数据的内容，因此，此时模型的泛华错误率主要来自偏差，而随着轮数不断加深，算法完全拟合了训练集，学习到了训练集数据的波动规律，此时主要泛化错误率来自于方差。而再随着迭代的加深，训练数据的非全局性，非代表性的规律被学习到后，此时发生一点数据波动，模型都会被严重影响，此时可能发生了过拟合。