最大似然估计和EM算法

作者: 罗泽坤 | 来源:发表于2020-01-26 18:13 被阅读0次

最大似然估计和EM算法
01 EM算法 - 大纲 - 最大似然估计(MLE)、贝叶斯算法
02 EM算法 - K-means算法回顾、EM概述
用EM思想估计GMM（高斯混合聚类）
EM 算法
2019-02-22-方法
如何感性地理解EM算法？
【理解机器学习（一）】理解极大似然估计和EM算法（上）
EM算法讲解文章
2019-11-05机器学习——EM算法推导

Maximum Likelihood Estimate and Expectation Maximization Algorithm

一、最大似然估计思想：

设有外形完全相同的两个黑箱子，甲箱中有99个白球1个黑球，乙箱中有1个白球99个黑球，设若任选一个箱子在选中箱子中任选一个球，若选出来的是白球，问这个白球最大似然(即最像、最有可能)于甲、乙中的哪个箱子？这个问题在直觉上来说肯定是选出的白球最像是甲箱中抽出的，因为甲箱中抽出白球的概率为0.99，乙箱中抽出白球的概率是0.01很显然白球最像是甲箱中抽出的，而最大似然估计的原理就是建立在这种直觉之上的。为了加深印象来看下面这个例子:

设产品分为合格品与不合格品两类，抽取出合格品X=1，抽取出不合格品X=0，则 $X\sim b(1,p)$ ,其中p是不合格品率现抽取n个产品看其是否合格，得到样本 $x_1,x_2,\cdots,x_n$ ，则这批观测值发生的概率为：

$P(X_1=x_1,\cdots,X_n=x_n:p)$ = $\overset{n}{\underset{i=1}\prod}p^{x_i}(1-p)^{1-x_i}=p^{\sum^n_{i=1}x_i}(1-p)^{n-\sum^{n}_{i=1}x_i}$ $\cdots\cdots\cdots$ $(1)$

显然对于p值可以有无数多个因此也就有无数多个x所可能服从的分布那么对于样本 $x_1,x_2,\cdots,x_n$ 最像是从那无数多个分布中的哪一个分布中抽出的样本嘞？这个有待商榷，根据之前提到过的最大似然估计的原理当然样本最像是从能够使得 $P(X_1=x_1,\cdots,X_n=x_n:p)$ 得到最大值的p所对于应的分布中抽取到的，因此我们可以通过求取 $(1)$ 式的最大值，用取最大值时候的参数 $\overset{-} p$ ,来估计p的取值，这就是最大似然估计的总体思想。我们可以通过对(1)式两端求导通过求极大值来求取 $\overset{-} p$ ，但是由于 $( 1 )$ 是右端有乘号这不好求导数因此可以进行取对数处理来将乘号变成加号处理，我们对 $(1)$ 是左右两端去对数记得到似然函数如下：

$L(p) = ln(P(X_1=x_1,\cdots,X_n=x_n:p))$

因为对数函数本身是个单调递增的函数因此 $P(X_1=x_1,\cdots,X_n=x_n:p)$ 取最大值时候与 $L(p)$ 取最大值是时候p是等价的，而且化为对数形式计算更为的简单，对似然函数求导之后得到的极大值点 $\overset{-}p$ 即为最大似然估计。

对于连续的情形：

对于连续时候的情形只要对取概率密度函数的最大似然函数也就可以了如下所示：

$L(\theta) = ln(p(x_1:\theta)p(x_2:\theta)\cdots p(x_n:\theta))$ , $p(x_n:\theta)$ 为密度函数

注意很多人可能会问对似然函数求导数之后就一定是最大值点或者是极大值点吗？不是还需要二阶导数大于小于零这样才是极大值点吗？没错，对似然函数关于参数求导之后得到的点是不一定是极大值点，但是那种情况是很少见的，由于我们一般遇到的分布函数都是exponential family的缘故往往似然函数求二阶导数之后在极值点出都是为负的，这个感兴趣的可以自己试一试。

二、EM算法：

在推到EM算法之前我们先来证明一个著名的不等式：

Jensen不等式（Jensen’s inequality）是以丹麦数学家Johan Jensen命名的，它在概率论、机器学习、测度论、统计物理等领域都有相关应用。

首先介绍什么是凸函数(convec function)。

在这里插入图片描述

[图片上传失败...(image-743cc3-1580033597709)]

image

EM算法简介：

[图片上传失败...(image-d2b872-1580033597709)]

[图片上传失败...(image-26d772-1580033597709)]

image

注意推导过程：

$\begin{aligned} L(\theta)-L\left(\theta^{(i)}\right) &=\log \left(\sum_{Z} P\left(Y | Z, \theta^{(i)}\right) \frac{P(Y | Z, \theta) P(Z | \theta)}{P\left(Y | Z, \theta^{(i)}\right)}\right)-\log P\left(Y | \theta^{(i)}\right) \\ & \geqslant \sum_{Z} P\left(Z | Y, \theta^{(i)}\right) \log \frac{P(Y | Z, \theta) P(Z | \theta)}{P\left(Z | Y, \theta^{(i)}\right)}-\log P\left(Y | \theta^{(i)}\right) \\ &=\sum_{Z} P\left(Z | Y, \theta^{(i)}\right) \log \frac{P(Y | Z, \theta) P(Z | \theta)}{P\left(Z | Y, \theta^{(i)}\right) P\left(Y | \theta^{(i)}\right)} \\ B\left(\theta, \theta^{(i)}\right) & \cong L\left(\theta^{(i)}\right)+\sum_{Z} P\left(Z | Y, \theta^{(i)}\right) \log \frac{P(Y | Z, \theta) P(Z | \theta)}{P\left(Z | Y, \theta^{(i)}\right) P\left(Y | \theta^{(i)}\right)}\end{aligned}$

其中 $\sum_{Z} P\left(Z | Y, \theta^{(i)}\right) = 1$ 即Y条件下Z必然发生，将 $P\left(Z | Y, \theta^{(i)}\right)$ 看做概率 $\dfrac{P(Y | Z, \theta) P(Z | \theta)}{P\left(Z | Y, \theta^{(i)}\right)}$ 看做是概率, $\log \left(\sum_{Z} P\left(Y | Z, \theta^{(i)}\right)\frac{P(Y | Z, \theta) P(Z | \theta)}{P\left(Y | Z, \theta^{(i)}\right)}\right)$ 看做是均值的函数，因为对数函数是一个上凸函数与之前证明jensen不等式时候用的下凸函数不同jenson不等式的不等号方向改变即 $f(E(x))\geq E(f(x))$ ,由此可推出上面的不等式。

另外：

$L(\theta)\geq B\left(\theta, \theta^{(i)}\right) \cong L\left(\theta^{(i)}\right)+\sum_{Z} P\left(Z | Y, \theta^{(i)} \log \frac{P(Y | Z, \theta) P(Z | \theta)}{P\left(Z | Y, \theta^{(i)}\right) P\left(Y | \theta^{(i)}\right)}\right)$

故 $L(\theta) \geq L(\theta^{i})$ 故可以求取 $\theta^{i+1}$ 代替 $\theta^i$ 继续迭代直至收敛与稳定值

image

总结：

EM算法是用于求解没有解析解的似然函数或者是解析解很难求出来的似然函数，这个时候只能选着用迭代的方法去求数值解步步逼近最优解，且迭代会稳定与某一个值，这个值与初始值的选取有关，求出的稳定值不是最大值与极大值，只是一个满意解，E M算法分两步走第一步选取初始参数求关于隐变量的均值去掉因变量，这个时候在观测值和初始参数值的情况下我们能够知道隐变量所服从的分布也就能够求得关于隐变量的均值，M步求去掉了隐变量之后的极大值即对求了均值后的似然函数求导然后反复迭代直至稳定。

EM算法实质上是求似然函数最大值的简化算法。

最大似然估计和EM算法
Maximum Likelihood Estimate and Expectation Maximization ...
01 EM算法 - 大纲 - 最大似然估计(MLE)、贝叶斯算法
EM算法的讲解的内容包括以下几个方面： 1、最大似然估计2、K-means算法3、EM算法4、GMM算法 EM算法...
02 EM算法 - K-means算法回顾、EM概述
01 EM算法 - 大纲 - 最大似然估计(MLE)、贝叶斯算法估计、最大后验概率估计(MAP) K-means算...
用EM思想估计GMM（高斯混合聚类）
EM算法（Expectation Maximization Algorithm），通过求参数的最大似然估计，解决含...
EM 算法
参考: 从最大似然到EM算法浅解（EM算法）The EM Algorithm EM算法及其推广学习笔记 EM算法...
2019-02-22-方法
1.EM算法（1）从最大似然到EM算法浅解
如何感性地理解EM算法？
如果使用基于最大似然估计的模型，模型中存在隐变量，就要用EM算法做参数估计。个人认为，理解EM算法背后的idea，...
【理解机器学习（一）】理解极大似然估计和EM算法（上）
搞懂极大似然估计与EM算法的定义及理清它们间的关系写在最前面的结论：极大似然估计和EM算法都是对于概率模型而言...
EM算法讲解文章
知乎人人都懂EM算法CSDN从最大似然到EM算法浅解
2019-11-05机器学习——EM算法推导
什么是EM 算法在介绍EM算法前，我们先了解一下最大似然估计(MLE)。MLE是利用已知的样本结果去反推最有可能...