6. 偏差 - 方差权衡

作者: edwin1993 | 来源:发表于2018-04-08 13:11 被阅读15次
  • 偏差 - 方差
  • 学习曲线

偏差 - 方差

泛化与近似的权衡

Eout较小时,说明所提出的f与实际相比的近似度较高。即在实际环境中误差小。

复杂的h能够更好的近似f
而更为简单的h能够更好的泛化到实际环境中

偏差
量化权衡的方式:

有两种量化的方式可以用来考虑权衡:

  1. VC分析的方式: E_out ≤ E_in + Ω
  2. 偏差-方差分析:分析E_out
    1 假设空间对f的近似程度
    2 对于一个好的假设h 进行适度方法(泛化)
  3. 在实际值的计算过程中,我们使用平方差。
E_out的分析:

D为样本集合
Ex为在整个x数据空间中的Error预期值。

E_out在整个样本数据空间中额预期Error为:


上面推导过程中:
与数据集D无关项为常数项。
g^D(x)的期望就是g均值,所以交叉项消去

综上:


等式右边的
第一项为方差,方差(样本方差)是每个样本值与全体样本值的平均数之差的平方值的平均数。
第二项为偏差,偏差是指个别测定值与测定的平均值之差。

偏差与方差的平衡

从左到右,偏差下降,方差上升。

实例:
我们从学习的角度考虑下面这个例子:

在知道最终的目标的情况下,我们可以选择出h0 h1最优的形式:

但当我们仅获得了N个数据点的时候,我们所得到的结果可能如下:

这就是为什么我们需要使用偏差-方差去衡量h

如果我们对h0给出较大的N:
绿线与蓝色之间的空间为偏差,而与灰色部分的空间为方差。

对h1而言
我们可以得到更小的偏差,但是方差的空间也变大了。

最终结果

所以,模型的复杂度应该与数据量相匹配而不是目标的复杂度。

学习曲线

刻画Ein Eout的关系

复杂模型与简单模型的对比:

在复杂模型中error为0的位置为VC维,低于该处的N可以为完全划分,所以Error为0。

VC中红色部分基本可以视为Ω
在偏差-方差分析中,我们不关注在样本中误差,因为我会直接使用g平均。

以线性回归为例:

上图中,样本内误差与样本外误差都有σ^2来衡量,而泛化误差就是Eout-Ein。结果恰好证明了VC维度对这些误差的控制。

相关文章

  • 6. 偏差 - 方差权衡

    偏差 - 方差 学习曲线 偏差 - 方差 泛化与近似的权衡 Eout较小时,说明所提出的f与实际相比的近似度较高。...

  • 方差-偏差权衡

    不要考虑测试数据, 只考虑训练数据. 模型的复杂度对应了模型对训练集的拟合度, 模型越复杂, 拟合度越高. 对于训...

  • 机器学习笔记 第4课:偏差,方差和权衡

    经由偏差 - 方差的权衡,我们可以更好地理解机器学习算法。 偏差(bias)是模型所做的简化假设,其目的是更容易地...

  • 机器学习笔记 第4课:偏差,方差和权衡

    经由偏差 - 方差的权衡,我们可以更好地理解机器学习算法。 偏差(bias)是模型所做的简化假设,其目的是更容易地...

  • 回归模型度量_Chapter5

    应用预测建模第5章回归模型度量回归系数理解_方差偏差权衡[https://www.kaggle.com/xiuju...

  • 机器学习相关问题

    Q1:偏差和方差 偏差:预测值与真实值的偏差方差:预测值的离散程度关系:此消彼涨 ​ 偏差大: 欠拟合, 问题:模...

  • 机器学习应用建议(二)

    偏差和方差的判别 高偏差和高方差本质上为学习模型的欠拟合和过拟合问题。 对于高偏差和高方差问题,即学习模型的欠拟合...

  • 方差偏差

    [高方差] 采集更多的样本数据[高方差] 减少特征数量,去除非主要的特征[高偏差] 引入更多的相关特征[高偏差] ...

  • 机器学习基础 | 偏差与方差

    一、什么是偏差和方差 在监督学习中,模型的泛化误差可分解为偏差、方差与噪声之和。 偏差与方差分别是用于衡量一个模型...

  • Bagging为什么能降低过拟合

    偏差与方差偏差 (bias) 定义为: 即模型的期望预测与真实值之间的差异。 方差 (variance) 定义为:...

网友评论

    本文标题:6. 偏差 - 方差权衡

    本文链接:https://www.haomeiwen.com/subject/pfbchftx.html