美文网首页
十大经典算法(九)

十大经典算法(九)

作者: 向着光噜噜 | 来源:发表于2021-03-29 14:38 被阅读0次

    十、EM算法

    最大期望算法(Expectation-maximization algorithm,又译为期望最大化算法),是在概率模型中寻找参数最大似然估计或者最大后验估计的算法,其中概率模型依赖于无法观测的隐性变量。

    最大期望算法经过两个步骤交替进行计算,

    1.第一步是计算期望(E),利用对隐藏变量的现有估计值,计算其最大似然估计值;

    2.第二步是最大化(M),最大化在E步上求得的最大似然值来计算参数的值。M步上找到的参数估计值被用于下一个E步计算中,这个过程不断交替进行。

     极大似然:多数情况下我们是根据已知条件来推算结果,而最大似然估计是已经知道了结果,然后寻求使该结果出现的可能性最大的条件,以此作为估计值。

    求极大似然函数估计值的一般步骤:

    1.写出似然函数;

    2.对似然函数取对数,并整理;

    3.求导数,令导数为0,得到似然方程;

    4.解似然方程,得到的参数即为所求;

    EM 算法是 Dempster,Laind,Rubin 于 1977 年提出的求参数 极大似然估计的一种方法,它可以从非完整数据集中对参数进行 MLE 估计,是一种非常简单实用的学习算法。这种方法可以广泛地应用于处理缺损数据, 截尾数据,带有噪声等所谓的不完全数据(incomplete data)。

    总结:

    如果将样本看作观察值,潜在类别看作是隐藏变量,那么聚类问题也就是参数估计问题,只不过聚类问题中参数分为隐含类别变量和其他参数,这犹如在x-y坐标系中找一个曲线的极值,然而曲线函数不能直接求导,因此什么梯度下降方法就不适用了。但固定一个变量后,另外一个可以通过求导得到,因此可以使用坐标上升法,一次固定一个变量,对另外的求极值,最后逐步逼近极值。对应到EM上,E步估计隐含变量,M步估计其他参数,交替将极值推向最大。EM中还有“硬”指定和“软”指定的概念,“软”指定看似更为合理,但计算量要大,“硬”指定在某些场合如K-means中更为实用(要是保持一个样本点到其他所有中心的概率,就会很麻烦)。

    相关文章

      网友评论

          本文标题:十大经典算法(九)

          本文链接:https://www.haomeiwen.com/subject/ijxvcltx.html