美文网首页
正则化总结

正则化总结

作者: Max_7 | 来源:发表于2018-11-11 21:20 被阅读0次

    正则化的作用

    正则化的作用就是用来避免或者减少过拟合现象。
    关于什么是过拟合什么是欠拟合就不再花费过多篇幅了。

    过拟合的产生

    过拟合产生有以下几种原因:

    1. 数据的数量不足
      这一点很好理解,只给你2个数据,但是一共有3个参数要确定
    2. 数据的质量不好
      比如说噪声点太多,影响模型的拟合曲线
    3. 模型复杂度太高
      比如深层的神经网络结构

    过拟合现象出现时,会导致系数非常大。以下图为例,可以看出曲线的拐动非常的突兀,反映在梯度上是曲线上的点的梯度变化很大,这样才能够实现方向的突转。


    过拟合曲线

    过拟合的另外一个比较直观的表现是高次项的系数大。这个也很好理解,通常的过拟合曲线和刚才的图像一样,有很多的弯曲,那么对于多项式而言(非多项式可以用泰勒展开),高次项对于曲线的弯曲有着更大的作用。所以高次项的系数会很大,从而使曲线有更明显的转动。同时,与欠拟合的情况相比,过拟合情况下的参数数量也会很多。w=\{w_{0},w_{1},w_{2}...w_{N}\},其中,过拟合情况下N的数量会很多。

    正则化的作用

    过拟合会导致模型复杂度过高,所以正则化的作用就是降低模型的复杂度。
    假设F(x)为模型的loss,原本的优化思路是min F(x),现在的优化策略变成min(F(x)+L) 。 L为正则项。常见的有L1和L2两种正则项。所以整体的思路就是一方面要让总体的误差下降,另一方面又要让模型的复杂度降低,减少参数的个数。 否则的话,对于复杂的模型,面对稍有偏移的数据就会产生极大的影响。 如果单纯的降低F(x),那么得出的参数的值会使得后面的L很大,那总体的值还是很大。由此可见,正则化是对过拟合现象的一种约束。如图所示,等高线是原本的模型的损失函数,圆心出的图形是正则化的2维展示。在3维角度上,z轴的值就是w1,w2对应的值。两个平面的切面就是所求的最优解。正则化前面正则化系数会控制正则化项的大小,\lambda越大,那么正则化的那个图形越小,结果越趋向在w取很小值的地方相交。

    L1正则

    假设J_{0}是线性回归模型
    J = J_{0}+\lambda L_{1}
    被称为 Lasso 回归。
    其中,L1正则是把参数的绝对值相加。具有以下特点,1.能使得参数稀疏,具有特征选择的功能。2. 模型不是处处可微。
    先说第二点,这个很好理解,在图形的拐点处可以看到是不可微的。
    下面从几何角度和数学角度分析一下第一个特点。
    几何角度
    从上图中可以看出,L1图形在坐标轴的4个点更容易与外面的损失函数相交。因为焦点在坐标轴上,这就意味着w中肯定有一个为0,扩展到高维中也一样,这样得到的焦点会使很多的w的值为0。这样得到的参数矩阵中有着很多0,是一个稀疏矩阵。
    数学角度
    J=J_{0}+\frac{\lambda}{n}\sum w
    \frac{\alpha J}{\alpha w}=\frac{\alpha J_{0}}{\alpha w} +\frac{\eta \lambda}{n}sign(w)
    w = w - \eta \frac{\alpha J_{0}}{\alpha w}- \frac{\eta \lambda}{n}sign(w)
    其中,\frac{\alpha L_{1}}{\alpha w}=sign(w) =1或 ,\eta是学习率。
    可以看出,w的参数更新过程中,每次会恒定减去一个值,那么w最后肯定会等于0。
    因为参数矩阵是稀疏矩阵,那么意味着很多特征前面的系数是0,那这个特征就等于没用。所以L1具有特征选择的作用。

    L2正则

    假设J_{0}是线性回归模型
    J = J_{0}+\lambda L_{2}
    被称为 Ridge 回归,也就是岭回归。
    其中,L2正则是把参数的模相加。具有以下特点,1.能迅速使得参数变小,但不稀疏。2. 模型处处可微。
    先说第二点,这个很好理解,在图形中可以看到L2的图像是一个圆形,处处可微。
    下面从几何角度和数学角度分析一下第一个特点。
    几何角度
    继续看上图,很明显图像在坐标轴上相交的概率大大降低了,这样就不会有w为0 了,从而避免了稀疏矩阵。
    数学角度
    J=J_{0}+\frac{\lambda}{2n}\sum_{i} w_{i}^{2}
    \frac{\alpha J}{\alpha w}=\frac{\alpha J_{0}}{\alpha w} +\frac{\eta \lambda}{n}w
    w = w - \eta \frac{\alpha J_{0}}{\alpha w}- \frac{\eta \lambda}{n}w
    =(1-\eta \frac{ \lambda}{n})w -\eta \frac{\alpha J_{0}}{\alpha w}
    w在每次更新的时候,都会先乘一个小于1的数,从而使得w迅速的变小。

    贝叶斯角度

    首先 f(x)=\sum x_{i}\theta_{i} +\epsilon
    \epsilon是噪声,服从均值为0的高斯分布。
    那么, Y \sim N(f(X,\delta ^{2}))
    最大似然函数为:
    \theta^{*} = argmax _{\theta} (\prod_{i}P(y_{i}|x_{i},\theta)) (1)
    在统计学的角度,下一步就是根据似然函数求得最优的参数。但是贝叶斯学派认为,在数据量不够的情况下,仅依赖观察到的数据来做决定不准确的。比如投硬币,大家都知道投1亿次那么正反的比例应该是接近1比1。现在假设只投了3次,3次全是正面。根据统计学的学习,得出最大似然后得出了抛硬币正面的概率是100%。这明显不对,这时需要在最大似然的基础上再乘以先验概率。这就是贝叶斯最大后验。
    P(\theta|X,Y) = \frac{P(\theta,X,Y)}{P(X,Y)}=\frac {P(Y|X,\theta)P(\theta)}{P(X,Y)}
    这个最后正比于P(Y|X,\theta)P(\theta),这里的参数\theta服从某种分布。
    (1)式对应的也变成
    \theta^{*} = argmax _{\theta} (\prod_{i}P(y_{i}|x_{i},\theta)\prod_{i}P(\theta_{i}))
    取对数后,
    =argmax _{\theta} (\sum_{i}P(y_{i}|x_{i},\theta)+\sum_{i}P(\theta_{i}))
    =argmax _{\theta} (\sum_{i}||f(x_{i})-y_{i}||^{2}+\sum_{i}P(\theta_{i})) (2)

    首先,我们假设参数服从Laplace分布,那么先验分布的具体形式就是
    P(\theta_{i})=\frac{\lambda}{2}exp(-\lambda |\theta_{i}|) (2.1)
    如果我们假设参数服从高斯分布,那么先验分布的具体形式就是
    P(\theta_{i})= \frac{\lambda}{\sqrt { \pi}}exp(-\lambda ||\theta_{i}||^{2 } ) (2.2)

    将 2.1, 2.1 分别带入到(2)中,会发现公式最后恰好是L1,L2的形式。
    从贝叶斯最大后验的角度而言,引入正则项的作用是引入了先验概率从而防止了过拟合现象。当先验概率是Laplace 分布和高斯分布时,分别对应了L1正则和L2正则

    相关文章

      网友评论

          本文标题:正则化总结

          本文链接:https://www.haomeiwen.com/subject/ohxntqtx.html