美文网首页
极大似然估计和贝叶斯估计

极大似然估计和贝叶斯估计

作者: Jarkata | 来源:发表于2021-04-03 12:00 被阅读0次

    本文为转载,原文链接: 极大似然估计和贝叶斯估计 - Pikachu5808的文章 - 知乎
    https://zhuanlan.zhihu.com/p/61593112

    极大似然估计(Maximum Likelihood Estimation, MLE) 和贝叶斯估计(Bayesian Estimation) 是统计推断中两种最常用的参数估计方法,二者在机器学习中的应用也十分广泛。本文将对这两种估计方法做一个详解。

    考虑这样一个问题:总体X的概率密度函数为f(x|\boldsymbol{\theta}),观测到一组样本(X_1,X_2,...,X_n)=(x_1,x_2,...,x_n),需要估计参数\boldsymbol \theta。下面我们将采用不同的估计方法来求解这个问题。

    1. 极大似然估计

    极大似然估计是典型的频率学派观点,它的基本思想是:待估计参数\boldsymbol \theta是客观存在的,只是未知而已,当\hat{\boldsymbol{\theta}}_{mle}满足\boldsymbol \theta = \hat{\boldsymbol{\theta}}_{mle}时,该组观测样本(X_1,X_2,...,X_n)=(x_1,x_2,...,x_n)更容易被观测到,我们就说\hat{\boldsymbol{\theta}}_{mle}\boldsymbol \theta的极大似然估计值。也就是,估计值\hat{\boldsymbol{\theta}}_{mle}使得事件发生的可能性最大。

    下面给出极大似然估计的数学描述:
    L(\boldsymbol \theta|\boldsymbol x) = f(\boldsymbol x|\boldsymbol \theta) = f(x_1,x_2,...,x_n|\boldsymbol \theta) = \prod \limits^{n}_{i=1} f(x_i|\boldsymbol \theta)\\ \hat{\boldsymbol{\theta}}_{mle}= \mathop{\arg\min}_{\theta} L(\boldsymbol \theta|x)

    2. 贝叶斯估计

    贝叶斯估计是典型的贝叶斯学派观点,它的基本思想是:待估计参数\boldsymbol \theta也是随机的,和一般随机变量没有本质区别,因此只能根据观测样本估计参数\boldsymbol \theta的分布。

    贝叶斯估计利用了贝叶斯公式,给出贝叶斯公式的数学描述:


    下面给出贝叶斯估计的数学描述:
    \pi(\boldsymbol \theta|x) = \frac{f(x|\boldsymbol \theta)\pi(\boldsymbol \theta)}{m(x)} = \frac{f(x|\boldsymbol \theta)\pi(\boldsymbol \theta)}{\int f(x|\boldsymbol \theta)\pi(\boldsymbol \theta)d(\boldsymbol \theta)}

    其中,\pi(\boldsymbol \theta)为参数\boldsymbol \theta的先验分布(prior distribution),表示对参数\boldsymbol \theta的主观认识,是非样本信息,\pi(\boldsymbol \theta|x)为参数\boldsymbol \theta的后验分布(posterior distribution)。因此,贝叶斯估计可以看作是,在假定\boldsymbol \theta服从\pi(\boldsymbol \theta)的先验分布前提下,根据样本信息去校正先验分布,得到后验分布\pi(\boldsymbol \theta|x)。由于后验分布是一个条件分布,通常我们取后验分布的期望作为参数的估计值。

    2.1 最大后验估计

    在贝叶斯估计中,如果我们采用极大似然估计的思想,考虑后验分布极大化而求解 \boldsymbol \theta ,就变成了最大后验估计(Maximum A Posteriori estimation,MAP):


    由于m(x)\boldsymbol \theta无关,因此简化了计算。

    作为贝叶斯估计的一种近似解,MAP有其存在的价值,因为贝叶斯估计中后验分布的计算往往是非常棘手的;而且,MAP并非简单地回到极大似然估计,它依然利用了来自先验的信息,这些信息无法从观测样本获得。

    对上面的式子稍作处理:


    如果将机器学习结构风险中的正则化项对应为上式的\mathop{\log}\pi(\boldsymbol \theta),那么带有正则化项的最大似然学习就可以被解释为MAP。当然,这并不是总是正确的,例如,有些正则化项可能不是一个概率分布的对数还有些正则化项依赖于数据,当然也不会是一个先验概率分布。不过,MAP提供了一个直观的方法来设计复杂但可解释的正则化项,例如,更复杂的惩罚项可以通过混合高斯分布作为先验得到,而不是一个单独的高斯分布。

    2.2 共轭先验

    在贝叶斯估计中,如果选取先验分布\pi \boldsymbol \theta,使得后验分布\pi(\boldsymbol \theta|x)\pi(\boldsymbol \theta)属于同一分布簇(即共轭分布),则称\pi(\boldsymbol \theta)为似然函数f(x|\boldsymbol \theta)的共轭先验。

    共轭先验的选取有如下好处:
    a).符合直观,先验分布和后验分布应该是相同形式的;
    b).可以给出后验分布的解析形式
    c).可以形成一个先验链,即现在的后验分布可以作为下一次计算的先验分布,如果形式相同,就可以形成一个链条。

    常见的共轭先验有:Beta分布(二项分布)、Dirichlet分布(多项分布)。

    很显然,共轭先验的选取很大程度上是基于数学理论的方便性,带有很强的主观色彩,而这也是饱受频率学派诟病的一点。频率学派认为,只有在先验分布有一种不依赖主观的意义,且能根据适当的理论或以往的经验决定时,才允许在统计推断中使用先验分布,否则就会丧失客观性。关于这些,读者可自行了解。

    相关文章

      网友评论

          本文标题:极大似然估计和贝叶斯估计

          本文链接:https://www.haomeiwen.com/subject/pethkltx.html