美文网首页机器学习算法
L1正则先验分布是Laplace分布,L2正则先验分布是Gaus

L1正则先验分布是Laplace分布,L2正则先验分布是Gaus

作者: 小幸运Q | 来源:发表于2019-10-24 22:41 被阅读0次

    https://www.cnblogs.com/heguanyou/p/7688344.html
    https://blog.csdn.net/m0_38045485/article/details/82147817
    https://www.zhihu.com/question/23536142


    image.png

    含有白噪音\varepsilon的测量得到的y_i,与真实的y_{real}有均值为0的高斯分布误差:
    y_i=w^Tx_i+\varepsilon

    p(\varepsilon)=\frac{1}{\sqrt{2\pi}\sigma}e^\frac{-(\varepsilon-0)^2}{2\sigma^2}=>p(y_i|x_i;w)=\frac{1}{\sqrt{2\pi}\sigma}e^\frac{-(y_i-w^Tx_i)^2}{2\sigma^2}

    最大似然估计:L(w)=\prod_{i=1}^{m}p(y_i|x_i;w)=\prod_{i=1}^{m}\frac{1}{\sqrt{2\pi}\sigma}e^\frac{-(y_i-w^Tx_i)^2}{2\sigma^2}

    取对数:log(L(w))=mlog(\frac{1}{\sqrt{2\pi}})-\frac{1}{2\sigma^2}\sum_{i=1}^{m}(y_i-w^Tx_i)^2

    因为我们要求的是w=arg\min_{w}\sum_{i=1}^{m}(y_i-wx_i)^2

    • 但是,我们很快遇到了small n, large p的问题,如果(w_1,w_2,...,w_n)里面的变量w_i太多会导致模型变得复杂,既然确定了\varepsilon的概率分布,那就把w的概率分布一块弄个联合概率分布呗(显然wb相互独立)

    拉普拉斯(Laplace)分布

    f(x|\mu, b) = \frac{1}{2b} e^{(-\frac{|x-\mu|}{b})}

    Laplace.png

    可以看到Laplace分布集中在μ附近,而且b越小,数据的分布就越集中。


    Laplace先验导出L1正则化

    P(w_i) = \frac{\lambda}{2} e^{(-\lambda|w_i|)}(\lambda=\frac{1}{b})

    w^*=arg\max_{w}(\prod_{i=1}P(Y_i|X_i;w)\prod_{j=1}P(w_j))=

    arg\max_{w}( log(\prod_{i=1}^{m}\frac{1}{\sqrt{2\pi}\sigma}e^\frac{-(y_i-w^Tx_i)^2}{2\sigma^2}\prod_{j=1}^{m}\frac{\lambda}{2} e^{(-\lambda|w_j|)}) )=

    • 注意:+号变成-

    arg\min_{w}( \sum_{i=1}^{m}(f(x_i)-y_i)^2+\sum_{i=1}^{m}ln( \frac{\lambda}{2} e^{(-\lambda|w_i|)}) )=

    arg\min_{w}( \sum_{i=1}^{m}(f(x_i)-y_i)^2+\lambda\sum_{i=1}^{m}|w_i| )

    最终,我们惊讶地推出L1的结果,说明L1其实是由该拉普拉斯分布推出的


    如果我们使用P(w_i) = \frac{\lambda}{\sqrt{\pi}} e^{(-\lambda\|w_i\|^2)}的高斯分布,那么就会推出L2

    w=arg \min_{w}(\frac{1}{2\sigma^2}\sum_{i=1}^{m}(y_i-w^Tx_i)^2+\lambda w^Tw)


    当然也可以把L1+L2组成复合式:

    image.png 中间那个就是.png

    相关文章

      网友评论

        本文标题:L1正则先验分布是Laplace分布,L2正则先验分布是Gaus

        本文链接:https://www.haomeiwen.com/subject/qbidvctx.html