L1正则先验分布是Laplace分布，L2正则先验分布是Gaus

作者: 小幸运Q | 来源:发表于2019-10-24 22:41 被阅读0次

L1与L2正则
L1正则先验分布是Laplace分布，L2正则先验分布是Gaus
Q&A
机器学习面试题总结
学习笔记-拉普拉斯先验与L1正则化和高斯先验与L2正则化
深度神经网络预训练的本质
LDA主题模型
一个例子搞清楚（先验分布/后验分布/似然估计）转载
韩明《贝叶斯统计学及其应用》摘选
面试资料

https://www.cnblogs.com/heguanyou/p/7688344.html
https://blog.csdn.net/m0_38045485/article/details/82147817
https://www.zhihu.com/question/23536142

image.png

含有白噪音 $\varepsilon$ 的测量得到的 $y_i$ ，与真实的 $y_{real}$ 有均值为0的高斯分布误差：
$y_i=w^Tx_i+\varepsilon$

$p(\varepsilon)=\frac{1}{\sqrt{2\pi}\sigma}e^\frac{-(\varepsilon-0)^2}{2\sigma^2}=>p(y_i|x_i;w)=\frac{1}{\sqrt{2\pi}\sigma}e^\frac{-(y_i-w^Tx_i)^2}{2\sigma^2}$

$最大似然估计：L(w)=\prod_{i=1}^{m}p(y_i|x_i;w)=\prod_{i=1}^{m}\frac{1}{\sqrt{2\pi}\sigma}e^\frac{-(y_i-w^Tx_i)^2}{2\sigma^2}$

$取对数：log(L(w))=mlog(\frac{1}{\sqrt{2\pi}})-\frac{1}{2\sigma^2}\sum_{i=1}^{m}(y_i-w^Tx_i)^2$

因为我们要求的是 $w=arg\min_{w}\sum_{i=1}^{m}(y_i-wx_i)^2$

但是，我们很快遇到了small n, large p的问题，如果 $(w_1,w_2,...,w_n)$ 里面的变量 $w_i$ 太多会导致模型变得复杂，既然确定了 $\varepsilon$ 的概率分布，那就把 $w$ 的概率分布一块弄个联合概率分布呗（显然 $w$ 和 $b$ 相互独立）

拉普拉斯(Laplace)分布

$f(x|\mu, b) = \frac{1}{2b} e^{(-\frac{|x-\mu|}{b})}$

Laplace.png

可以看到Laplace分布集中在μ附近，而且b越小，数据的分布就越集中。

Laplace先验导出L1正则化

$P(w_i) = \frac{\lambda}{2} e^{(-\lambda|w_i|)}（\lambda=\frac{1}{b}）$

$w^*=arg\max_{w}(\prod_{i=1}P(Y_i|X_i;w)\prod_{j=1}P(w_j))=$

$arg\max_{w}( log(\prod_{i=1}^{m}\frac{1}{\sqrt{2\pi}\sigma}e^\frac{-(y_i-w^Tx_i)^2}{2\sigma^2}\prod_{j=1}^{m}\frac{\lambda}{2} e^{(-\lambda|w_j|)}) )=$

注意： $+$ 号变成 $-$ 号

$arg\min_{w}( \sum_{i=1}^{m}(f(x_i)-y_i)^2+\sum_{i=1}^{m}ln( \frac{\lambda}{2} e^{(-\lambda|w_i|)}) )=$

$arg\min_{w}( \sum_{i=1}^{m}(f(x_i)-y_i)^2+\lambda\sum_{i=1}^{m}|w_i| )$

最终，我们惊讶地推出 $L1$ 的结果，说明 $L1$ 其实是由该拉普拉斯分布推出的

如果我们使用 $P(w_i) = \frac{\lambda}{\sqrt{\pi}} e^{(-\lambda\|w_i\|^2)}$ 的高斯分布，那么就会推出 $L2$

$w=arg \min_{w}(\frac{1}{2\sigma^2}\sum_{i=1}^{m}(y_i-w^Tx_i)^2+\lambda w^Tw)$

当然也可以把 $L1+L2$ 组成复合式：

image.png

中间那个就是.png

L1与L2正则
L1正则假设参数的先验分布是Laplace分布，可以保证模型的稀疏性，也就是某些参数等于0；L2正则假设参数的先验...
L1正则先验分布是Laplace分布，L2正则先验分布是Gaus
https://www.cnblogs.com/heguanyou/p/7688344.htmlhttps://b...
Q&A
ML 为什么L1正则等价于参数为拉普拉斯先验分布，L2正则等价于参数为高斯先验分布？ focal loss 与 C...
机器学习面试题总结
这些机器学习面试题你都能回答出来吗？ LSTM为啥比RNN在梯度消失上要好？为啥L1正则先验分布是Laplace...
学习笔记-拉普拉斯先验与L1正则化和高斯先验与L2正则化
在之前的笔记中记录了L1与L2正则化，现在我们来看为什么拉普拉斯先验等同于L1正则化，高斯先验等同于L2正则化。 ...
深度神经网络预训练的本质
是正则化，而且还不是一般的正则化，更不是优化的假设，也不是边际分布所能解释的。是某种特殊的先验分布带来的正则化。而...
LDA主题模型
一、几个基础概念 1、贝叶斯理论：先验分布+数据（似然）=后验分布2、二项分布、Beta分布与共轭分布先验分布和后...
一个例子搞清楚（先验分布/后验分布/似然估计）转载
看过的先验分布和后验分布最通俗解释原文一个例子搞清楚（先验分布/后验分布/似然估计）
韩明《贝叶斯统计学及其应用》摘选
先验分布和后验分布先验分布和后验分布是贝叶斯统计学基础理论部分的重要内容。经典学派规定统计推断是根据样本信息对...
面试资料
编程题：动态规划回溯法基础知识： LR正则化与数据先验分布的关系？ LSTM如何来避免梯度弥散和梯度爆炸？ ...