美文网首页
正则化-QA

正则化-QA

作者: 司马山哥 | 来源:发表于2019-03-26 16:23 被阅读0次

    Q1:如何理解正则化降低模型复杂度?

    模型的复杂度可以用VC维来衡量,而通常情况下,模型VC维与系数w的个数呈线性关系:w越多,VC维度越大,模型越复杂。因此,为了限制模型的复杂度,我们自然考虑减少w的个数,即让w向量中一些元素为0或者说限制w中非零元素的个数。因此我们可以在原本的优化问题上面加上一个约束条件:

    即||w||0<=C(0代表下标,即参数w的0范数),由于这个问题求解十分困难,因此我们采用近似效果进行求解,即让w尽可能接近0,即尽量小,因此我们用||w||1和||w||2进行求解,因为||w||2不好处理,因此我们转用(||w||2)^2进行求解,然后利用拉格朗日算法进行求解

    Q2:L1正则化与L2正则化的对比?

    • 从概率的角度理解
      认为参数w为随机变量,存在先验分布P(w)。这种条件下,目标为使得当前样本下参数w的联合概率密度最大。即:
      P(w|x,y)=\frac{P(x,y,w)}{p(x,y)}=\frac{P(x,y|w)P(w)}{P(x,y)}\propto P(y|x;w)P(w)
      MAP=\log P(y|x;w)P(w)=\log P(y|x;w)+\log P(w)
      上式中的\log P(w)为正则化项,MAP为最大后验概率。
      (1)设参数的先验分布为拉普拉斯分布:
      P(w)=-\frac{1}{\sqrt{2a}}e^{-\frac{|w|}{a}}
      此时,MAP的正则项为L_1正则化。
      (2)设参数的先验分布为高斯分布:
      P(w)=-\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{w^2}{2\sigma^2}}
      此时,MAP的正则项为L_2正则化。

    深入理解正则化

    https://zhuanlan.zhihu.com/p/29360425

    相关文章

      网友评论

          本文标题:正则化-QA

          本文链接:https://www.haomeiwen.com/subject/tnwvvqtx.html