Q1:如何理解正则化降低模型复杂度?
模型的复杂度可以用VC维来衡量,而通常情况下,模型VC维与系数w的个数呈线性关系:w越多,VC维度越大,模型越复杂。因此,为了限制模型的复杂度,我们自然考虑减少w的个数,即让w向量中一些元素为0或者说限制w中非零元素的个数。因此我们可以在原本的优化问题上面加上一个约束条件:
即||w||0<=C(0代表下标,即参数w的0范数),由于这个问题求解十分困难,因此我们采用近似效果进行求解,即让w尽可能接近0,即尽量小,因此我们用||w||1和||w||2进行求解,因为||w||2不好处理,因此我们转用(||w||2)^2进行求解,然后利用拉格朗日算法进行求解
Q2:L1正则化与L2正则化的对比?
-
从概率的角度理解
认为参数为随机变量,存在先验分布
。这种条件下,目标为使得当前样本下参数
的联合概率密度最大。即:
上式中的为正则化项,MAP为最大后验概率。
(1)设参数的先验分布为拉普拉斯分布:
此时,MAP的正则项为正则化。
(2)设参数的先验分布为高斯分布:
此时,MAP的正则项为正则化。
网友评论