正则化的作用
正则化的作用就是用来避免或者减少过拟合现象。
关于什么是过拟合什么是欠拟合就不再花费过多篇幅了。
过拟合的产生
过拟合产生有以下几种原因:
- 数据的数量不足
这一点很好理解,只给你2个数据,但是一共有3个参数要确定 - 数据的质量不好
比如说噪声点太多,影响模型的拟合曲线 - 模型复杂度太高
比如深层的神经网络结构
过拟合现象出现时,会导致系数非常大。以下图为例,可以看出曲线的拐动非常的突兀,反映在梯度上是曲线上的点的梯度变化很大,这样才能够实现方向的突转。
过拟合曲线
过拟合的另外一个比较直观的表现是高次项的系数大。这个也很好理解,通常的过拟合曲线和刚才的图像一样,有很多的弯曲,那么对于多项式而言(非多项式可以用泰勒展开),高次项对于曲线的弯曲有着更大的作用。所以高次项的系数会很大,从而使曲线有更明显的转动。同时,与欠拟合的情况相比,过拟合情况下的参数数量也会很多。,其中,过拟合情况下N的数量会很多。
正则化的作用
过拟合会导致模型复杂度过高,所以正则化的作用就是降低模型的复杂度。
假设F(x)为模型的loss,原本的优化思路是min F(x),现在的优化策略变成min(F(x)+L) 。 L为正则项。常见的有L1和L2两种正则项。所以整体的思路就是一方面要让总体的误差下降,另一方面又要让模型的复杂度降低,减少参数的个数。 否则的话,对于复杂的模型,面对稍有偏移的数据就会产生极大的影响。 如果单纯的降低F(x),那么得出的参数的值会使得后面的L很大,那总体的值还是很大。由此可见,正则化是对过拟合现象的一种约束。如图所示,等高线是原本的模型的损失函数,圆心出的图形是正则化的2维展示。在3维角度上,z轴的值就是w1,w2对应的值。两个平面的切面就是所求的最优解。正则化前面正则化系数会控制正则化项的大小,越大,那么正则化的那个图形越小,结果越趋向在w取很小值的地方相交。
L1正则
假设是线性回归模型
被称为 Lasso 回归。
其中,L1正则是把参数的绝对值相加。具有以下特点,1.能使得参数稀疏,具有特征选择的功能。2. 模型不是处处可微。
先说第二点,这个很好理解,在图形的拐点处可以看到是不可微的。
下面从几何角度和数学角度分析一下第一个特点。
几何角度
从上图中可以看出,L1图形在坐标轴的4个点更容易与外面的损失函数相交。因为焦点在坐标轴上,这就意味着w中肯定有一个为0,扩展到高维中也一样,这样得到的焦点会使很多的w的值为0。这样得到的参数矩阵中有着很多0,是一个稀疏矩阵。
数学角度
其中, =1或 ,是学习率。
可以看出,w的参数更新过程中,每次会恒定减去一个值,那么w最后肯定会等于0。
因为参数矩阵是稀疏矩阵,那么意味着很多特征前面的系数是0,那这个特征就等于没用。所以L1具有特征选择的作用。
L2正则
假设是线性回归模型
被称为 Ridge 回归,也就是岭回归。
其中,L2正则是把参数的模相加。具有以下特点,1.能迅速使得参数变小,但不稀疏。2. 模型处处可微。
先说第二点,这个很好理解,在图形中可以看到L2的图像是一个圆形,处处可微。
下面从几何角度和数学角度分析一下第一个特点。
几何角度
继续看上图,很明显图像在坐标轴上相交的概率大大降低了,这样就不会有w为0 了,从而避免了稀疏矩阵。
数学角度
w在每次更新的时候,都会先乘一个小于1的数,从而使得w迅速的变小。
贝叶斯角度
首先
是噪声,服从均值为0的高斯分布。
那么,
最大似然函数为:
(1)
在统计学的角度,下一步就是根据似然函数求得最优的参数。但是贝叶斯学派认为,在数据量不够的情况下,仅依赖观察到的数据来做决定不准确的。比如投硬币,大家都知道投1亿次那么正反的比例应该是接近1比1。现在假设只投了3次,3次全是正面。根据统计学的学习,得出最大似然后得出了抛硬币正面的概率是100%。这明显不对,这时需要在最大似然的基础上再乘以先验概率。这就是贝叶斯最大后验。
这个最后正比于,这里的参数服从某种分布。
(1)式对应的也变成
取对数后,
(2)
首先,我们假设参数服从Laplace分布,那么先验分布的具体形式就是
(2.1)
如果我们假设参数服从高斯分布,那么先验分布的具体形式就是
(2.2)
将 2.1, 2.1 分别带入到(2)中,会发现公式最后恰好是L1,L2的形式。
从贝叶斯最大后验的角度而言,引入正则项的作用是引入了先验概率从而防止了过拟合现象。当先验概率是Laplace 分布和高斯分布时,分别对应了L1正则和L2正则
网友评论