12-Regularization

作者: Klaas | 来源:发表于2018-03-25 15:34 被阅读14次

12-Regularization

在VC理论中，仅仅考虑了Eout < Ein + \delta, 其中\delta 与growth function， N相关，但是却没考虑到target function的影响， noise的影响，现在我们要来补全它。

下面从一个简单的例子开始。还记得我们之前的，给定两个点，用一根线拟合sin的例子吧， y = ax + b表现的并不那么好，可以看出来它的variance非常大，虽然bias小(y=b这个简单的假设反而variance没那么大)。而当我们加了regularization的时候， things become better。 Regularization减小variance的代价是稍微增大了bias，而显然这是可以接受了。 Regularization在这里的一种理解是假如我们有0,1,2,3阶模型， regularization不选择到具体的模型，而是处于a gap between them。

example
winner
多项式模型。更一般化的，我们将线性回归表达成矩阵/向量的形式，看成是变换到Z空间，再做回归，每个Z空间对应一个勒让德多项式。采用勒让德多项式的好处是它们之间两两正交，代表着假设空间是不会重复的。然后就是跟之前一样的求解步骤了。

polynomial
sol
事实上，我们可以加constrain， hard的形式是直接把某些项置零，这样子有些粗暴， soft的形式是让w≤C，加了soft constrain， VC维度更小(对不加constrain而言)， better generalization。

constrain
那么如何求解constrain形式的规划问题呢。问题的解空间是一个椭圆(蓝色)，而约束是一个圆(红色)，最优解存在与两者的梯度反向平行的位置上，即夹角越大越好。转成第二个表达式，我们可以将问题重新转化，可以看到C越大的话， \lambda就越小。

constrain sol
代入，求解。求解结果有点是矩阵加了扰动的意思？？？

problem
solution
从结果我们看到，需要选择一个比较好的lambda，结果才能更好。

Result
上面提到的技术其实是称之为weight decay。我们可以看到，它就是在梯度更新的时候，不选择原来的w(t)，而是让w(t)更小一些(1-xx)，这样可以防止w一直上涨的太厉害，起到一种shrinkage的效果。另外，我们也可以规定不同的w赋予不同的regularization，起到importance emphasis的作用。

weight decay
weight decay2
如果使用weight growth呢，效果显然是不好的， Eout直线上升。前面我们提到的随机noise是高频的，而确定性noise也是非平滑的，其实价格regularization就是让最终选择到的hypothesis更加平滑！这样可以消除这两种noise的影响。

weight growth
更一般形式的表达。相比于Ein， Eaug是Eout更好的表达。

general
如何选择regularizer呢，指导思想是要往target function的方向去，这个方向是一个更加平滑或者说让模型更加简单的方向。在神经网络中，观察tanh函数，如果w比较小，那么激活之后就是在线性区域，而如果w比较大，激活之后就是1， -1 这样的布尔值了。或者说，我们可以删除权重，这将使得VC维更小， better generation。如图中的公式，若w比较小， beta dominant，若w比较大，值接近雨1， beta diminish，这样就起到了删除权重的作用了。

choice
NN
更一般的，用early stopping， validation来防止过拟合。对随机噪声来说，如果它不存在，我们就不用regularization了，噪声越多，需要的regularization也就越多了；确定性噪声同理。

regularizer
lambda