Maximum Likelihood Estimate and Expectation Maximization Algorithm
一、最大似然估计思想:
设有外形完全相同的两个黑箱子,甲箱中有99个白球1个黑球,乙箱中有1个白球99个黑球,设若任选一个箱子在选中箱子中任选一个球,若选出来的是白球,问这个白球最大似然(即最像、最有可能)于甲、乙中的哪个箱子?这个问题在直觉上来说肯定是选出的白球最像是甲箱中抽出的,因为甲箱中抽出白球的概率为0.99,乙箱中抽出白球的概率是0.01很显然白球最像是甲箱中抽出的,而最大似然估计的原理就是建立在这种直觉之上的。为了加深印象来看下面这个例子:
设产品分为合格品与不合格品两类,抽取出合格品X=1,抽取出不合格品X=0,则,其中p是不合格品率现抽取n个产品看其是否合格,得到样本,则这批观测值发生的概率为:
=
显然对于p值可以有无数多个因此也就有无数多个x所可能服从的分布那么对于样本最像是从那无数多个分布中的哪一个分布中抽出的样本嘞?这个有待商榷,根据之前提到过的最大似然估计的原理当然样本最像是从能够使得 得到最大值的p所对于应的分布中抽取到的,因此我们可以通过求取式的最大值,用取最大值时候的参数 ,来估计p的取值,这就是最大似然估计的总体思想。我们可以通过对(1)式两端求导通过求极大值来求取,但是由于 是右端有乘号这不好求导数因此可以进行取对数处理来将乘号变成加号处理,我们对是左右两端去对数记得到似然函数如下:
因为对数函数本身是个单调递增的函数因此 取最大值时候与 取最大值是时候p是等价的,而且化为对数形式计算更为的简单,对似然函数求导之后得到的极大值点即为最大似然估计。
对于连续的情形:
对于连续时候的情形只要对取概率密度函数的最大似然函数也就可以了如下所示:
, 为密度函数
注意很多人可能会问对似然函数求导数之后就一定是最大值点或者是极大值点吗?不是还需要二阶导数大于小于零这样才是极大值点吗?没错,对似然函数关于参数求导之后得到的点是不一定是极大值点,但是那种情况是很少见的,由于我们一般遇到的分布函数都是exponential family的缘故往往似然函数求二阶导数之后在极值点出都是为负的,这个感兴趣的可以自己试一试。
二、EM算法:
在推到EM算法之前我们先来证明一个著名的不等式:
Jensen不等式(Jensen’s inequality)是以丹麦数学家Johan Jensen命名的,它在概率论、机器学习、测度论、统计物理等领域都有相关应用。
首先介绍什么是凸函数(convec function)。
在这里插入图片描述[图片上传失败...(image-743cc3-1580033597709)]
image image imageEM算法简介:
[图片上传失败...(image-d2b872-1580033597709)]
[图片上传失败...(image-26d772-1580033597709)]
image image image image image image image image image注意推导过程:
其中即Y条件下Z必然发生,将看做概率看做是概率, 看做是均值的函数,因为对数函数是一个上凸函数与之前证明jensen不等式时候用的下凸函数不同jenson不等式的不等号方向改变即 ,由此可推出上面的不等式。
另外:
故 故可以求取 代替继续迭代直至收敛与稳定值
imageimage image
总结:
EM算法是用于求解没有解析解的似然函数或者是解析解很难求出来的似然函数,这个时候只能选着用迭代的方法去求数值解步步逼近最优解,且迭代会稳定与某一个值,这个值与初始值的选取有关,求出的稳定值不是最大值与极大值,只是一个满意解,E M算法分两步走第一步选取初始参数求关于隐变量的均值去掉因变量,这个时候在观测值和初始参数值的情况下我们能够知道隐变量所服从的分布也就能够求得关于隐变量的均值,M步求去掉了隐变量之后的极大值即对求了均值后的似然函数求导然后反复迭代直至稳定。
EM算法实质上是求似然函数最大值的简化算法。
网友评论