极大似然估计和贝叶斯估计

作者: Jarkata | 来源:发表于2021-04-03 12:00 被阅读0次

极大似然估计和贝叶斯估计
极大似然估计和贝叶斯估计
极大似然估计和贝叶斯估计
极大似然估计
十大数据挖掘算法之朴素贝叶斯
最大似然估计和贝叶斯估计
最大似然估计与贝叶斯估计
4 朴素贝叶斯
python: 朴素贝叶斯分类器的简单实现
最大似然估计 VS 贝叶斯估计

本文为转载，原文链接: 极大似然估计和贝叶斯估计 - Pikachu5808的文章 - 知乎
https://zhuanlan.zhihu.com/p/61593112

极大似然估计(Maximum Likelihood Estimation, MLE) 和贝叶斯估计(Bayesian Estimation) 是统计推断中两种最常用的参数估计方法，二者在机器学习中的应用也十分广泛。本文将对这两种估计方法做一个详解。

考虑这样一个问题：总体 $X$ 的概率密度函数为 $f(x|\boldsymbol{\theta})$ ，观测到一组样本 $(X_1,X_2,...,X_n)=(x_1,x_2,...,x_n)$ ，需要估计参数 $\boldsymbol \theta$ 。下面我们将采用不同的估计方法来求解这个问题。

1. 极大似然估计

极大似然估计是典型的频率学派观点，它的基本思想是：待估计参数 $\boldsymbol \theta$ 是客观存在的，只是未知而已，当 $\hat{\boldsymbol{\theta}}_{mle}$ 满足 $\boldsymbol \theta = \hat{\boldsymbol{\theta}}_{mle}$ 时，该组观测样本 $(X_1,X_2,...,X_n)=(x_1,x_2,...,x_n)$ 更容易被观测到，我们就说 $\hat{\boldsymbol{\theta}}_{mle}$ 是 $\boldsymbol \theta$ 的极大似然估计值。也就是，估计值 $\hat{\boldsymbol{\theta}}_{mle}$ 使得事件发生的可能性最大。

下面给出极大似然估计的数学描述：
$L(\boldsymbol \theta|\boldsymbol x) = f(\boldsymbol x|\boldsymbol \theta) = f(x_1,x_2,...,x_n|\boldsymbol \theta) = \prod \limits^{n}_{i=1} f(x_i|\boldsymbol \theta)\\ \hat{\boldsymbol{\theta}}_{mle}= \mathop{\arg\min}_{\theta} L(\boldsymbol \theta|x)$

2. 贝叶斯估计

贝叶斯估计是典型的贝叶斯学派观点，它的基本思想是：待估计参数 $\boldsymbol \theta$ 也是随机的，和一般随机变量没有本质区别，因此只能根据观测样本估计参数 $\boldsymbol \theta$ 的分布。

贝叶斯估计利用了贝叶斯公式，给出贝叶斯公式的数学描述：

下面给出贝叶斯估计的数学描述：
$\pi(\boldsymbol \theta|x) = \frac{f(x|\boldsymbol \theta)\pi(\boldsymbol \theta)}{m(x)} = \frac{f(x|\boldsymbol \theta)\pi(\boldsymbol \theta)}{\int f(x|\boldsymbol \theta)\pi(\boldsymbol \theta)d(\boldsymbol \theta)}$

其中， $\pi(\boldsymbol \theta)$ 为参数 $\boldsymbol \theta$ 的先验分布(prior distribution)，表示对参数 $\boldsymbol \theta$ 的主观认识，是非样本信息， $\pi(\boldsymbol \theta|x)$ 为参数 $\boldsymbol \theta$ 的后验分布(posterior distribution)。因此，贝叶斯估计可以看作是，在假定 $\boldsymbol \theta$ 服从 $\pi(\boldsymbol \theta)$ 的先验分布前提下，根据样本信息去校正先验分布，得到后验分布 $\pi(\boldsymbol \theta|x)$ 。由于后验分布是一个条件分布，通常我们取后验分布的期望作为参数的估计值。

2.1 最大后验估计

在贝叶斯估计中，如果我们采用极大似然估计的思想，考虑后验分布极大化而求解 $\boldsymbol \theta$ ，就变成了最大后验估计（Maximum A Posteriori estimation，MAP）：

由于

m(x)

与

\boldsymbol \theta

无关，因此简化了计算。

作为贝叶斯估计的一种近似解，MAP有其存在的价值，因为贝叶斯估计中后验分布的计算往往是非常棘手的；而且，MAP并非简单地回到极大似然估计，它依然利用了来自先验的信息，这些信息无法从观测样本获得。

对上面的式子稍作处理：

如果将机器学习结构风险中的正则化项对应为上式的

\mathop{\log}\pi(\boldsymbol \theta)

，那么带有正则化项的最大似然学习就可以被解释为MAP。当然，这并不是总是正确的，例如，有些正则化项可能不是一个概率分布的对数，还有些正则化项依赖于数据，当然也不会是一个先验概率分布。不过，MAP提供了一个直观的方法来设计复杂但可解释的正则化项，例如，更复杂的惩罚项可以通过混合高斯分布作为先验得到，而不是一个单独的高斯分布。

2.2 共轭先验

在贝叶斯估计中，如果选取先验分布 $\pi \boldsymbol \theta$ ，使得后验分布 $\pi(\boldsymbol \theta|x)$ 与 $\pi(\boldsymbol \theta)$ 属于同一分布簇（即共轭分布），则称 $\pi(\boldsymbol \theta)$ 为似然函数 $f(x|\boldsymbol \theta)$ 的共轭先验。