ML&MLDS笔记：偏差 vs 方差

作者: cherryleechen | 来源:发表于2019-05-08 09:56 被阅读8次

ML&MLDS笔记：偏差 vs 方差
机器学习相关问题
机器学习应用建议（二）
方差偏差
机器学习基础 | 偏差与方差
Bagging为什么能降低过拟合
机器学习系列2：误差、梯度下降、交叉验证、归一化和评价指标
ex5_偏差vs方差.md
偏差和方差
6. 偏差 - 方差权衡

error来自哪？来自于偏差Bias和方差Variance。

图1 error的来源

就如打靶时瞄准一个点 $\overline{f}$ ，打出的点 $f^*$ 分布在该点周围。那么， $\overline{f}$ 与实际靶心 $\hat{f}$ 的距离就是偏差Bias，打出的点 $f^*$ 与 $\overline{f}$ 的分布距离就是方差Variance。
可将偏差理解为没瞄准，方差理解为瞄准了但是打得太散。

图2 方差 vs 偏差

简单模型的方差小于复杂模型的方差。因为简单模型比较集中，其权重 $W$ 不太会受到data变化的影响，可考虑极端例子 $f(x)=c$ ，该模型方差为0。

图3 模型复杂度与方差

简单模型的偏差大于复杂模型的偏差。因为模型是个函数/假设集，定好模型后，function只能在里面挑选。而简单模型的space小，很可能不包含 $\hat{f}$ ；复杂模型的space大，很可能包含 $\hat{f}$ 。

图4 模型复杂度与偏差

偏差大意味欠拟合，方差大意味过拟合。

图5 欠拟合与过拟合

If your model cannot even fit the training examples, then you have large bias.
If you can fit the training data, but large error on testing data, then you probably have large variance.
For bias,redesign your model:

Add more features as input;
A more complex model.

For variance:

More data;
Very effective, but not always practical.
给的数据不够，很难准确地找到目标假设。但实际操作中，数据往往没那么“充足”。
Regularization.
限制 $||W||$ ，较小/短的 $W$ 意味着函数较平滑：输入变化，输出变化小。
may increase bias.