uniform机器学习极简入门5—EM算法

作者: uniform斯坦 | 来源:发表于2019-03-28 22:44 被阅读0次

uniform机器学习极简入门5—EM算法
uniform机器学习极简入门7—机器学习入门概述
机器学习&深度学习知识体系——写过的博文（博客目录索引）
uniform机器学习极简入门3—KMeans
uniform机器学习极简入门4—高斯混合聚类（GMM Gau
LDA 与 LSA、PLSA、NMF相比
[机器学习入门] 李弘毅机器学习笔记-16 （Unsupervi
EM算法及实现
uniform机器学习极简入门6—聚类算法2(DBSCAN和层次
<机器学习> EM算法

上一节我们介绍了高斯混合模型（GMM），这个模型在求解的时候我们提到了EM算法，本节我们详细介绍下EM算法的基本流程，其实在KMeans中也有EM的思想，EM算法在很多概率求解中都有用到，我们也会在后续中一一提到。

1 EM算法概述

我们先简单描述EM算法

EM算法就是用来解决存在隐变量的参数估计问题

在GMM模型中，我们在利用样本估计每个高斯分量模型的参数之前，需要先确定每个样本的所属类别，然后才能根据类别对应的样本利用最大似然函数来求解。具体步骤可以拆成如下

先给每个样本估计一个类别概率

根据样本所属类别概率求解各个类别对应的参数，利用最大似然估计的方法

这里的类别就是EM中提到的隐变量，传统的似然函数估计是
$\{x_1, x_2,...\} ->\theta$
现在似然函数变得更复杂
$\{x_1, x_2,...\} -> {z_1, z_2, ...} -> \theta$
下面我们就推导下这个更加泛化的过程

2 EM算法推导

首先我们先假设某个样本的概率
$P(x_j;\theta)$
这里的样本x对应的概率参数还由隐变量z决定，我们可以根据联合概率和边际概率得到
$P(x_j;\theta)=\sum_{z_j}P(z_j)P(x_j|z_j;\theta)$
$=\sum_{z_j}P(x_j,z_j;\theta)\ \ \ (1)$

我们的目标还是希望似然函数最大化，那么对应样本集合，我们有
$L = \prod_{j=1}^mP(x_j;\theta)$

$logL = \sum_{j=1}^mlogP(x_j;\theta)$
$=\sum_{j=1}^mlog[\sum_{z_j}P(x_j,z_j;\theta)] \ \ \ \ (2)$
上面我们把公式1带入到最大似然求解中，可以得到公式2，但是这里有个很麻烦的log，无法直接求解极值，下面对P()进行转换，表示成期望
$logL=\sum_{j=1}^mlog\sum_{z_J}Q(z_j)\frac{P(x_j,z_j;\theta)}{Q(z_j)} \ \ \ \ (3)$
这里Q(z)是z的分布，由Jensen不等式我们知道，对于凸函数有

凸函数

E[f(x)]>=f[E(x)]

凹函数则相反。

公式3中，log正好是凹函数根据Jensen不等式可以得到
$logL>=\sum_{j=1}^m\sum_{z_j}Q(z_j)log\frac{P(x_j,z_j;\theta)}{Q(z_j)} \ \ \ \ \ (4)$
Jensen不等式使得等号成立的条件是x为常数
$\frac{P(x_j,z_j;\theta)}{Q(z_j)}=c \ \ \ \ \ (5)$
已知Q(z)属于概率分布，有如下条件
$\sum_{z_j}Q(z_j)=1 \ \ \ \ (6)$
根据公式（5）（6）得到
$Q(z_j)=\frac{P(x_j,z_j;\theta)}{\sum_{z_j} {P(x_j,z_j;\theta)}}$
$=P(z_j|x_j;\theta)$
得到Q(z)之后，我们就可以求解公式(4)。

所以这里的EM步骤可以归纳为

E步（expctation）
根据参数初始值或者上一轮的迭代参数结果来计算隐变量的后验概率，即隐变量的期望
$Q(z_j)=p(x_j|x_j;\theta)$
M步，求解使得似然函数最大化的参数
$argmax_{\theta}\sum_j\sum_{z_j}{Q(z_j)}log(\frac{P(x_j,z_j;\theta)}{Q(z_j)})$

大白话解释就是：

先根据分布参数计算每个样本属于各个隐变量的概率
利用各个样本所属的类别概率，然后最大化似然函数，更新分布的参数

kmeans

kmeans计算就是这样，我们先随机初始化各个类别的中心向量，然后根据中心向量计算各个样本的所属类别（E步骤），然后根据各个样本所属类别来更新各个类别的参数（中心向量；M步骤）

uniform机器学习极简入门5—EM算法
上一节我们介绍了高斯混合模型（GMM），这个模型在求解的时候我们提到了EM算法，本节我们详细介绍下EM算法的基本流...
uniform机器学习极简入门7—机器学习入门概述
uniform机器学习极简入门这个系列已经介绍了6节课，大家对机器学习（统计学习）有了些了解（当然之前都是些基础）...
机器学习&深度学习知识体系——写过的博文（博客目录索引）
机器学习&深度学习入门机器学习简介深度学习简介深度学习入门极简教程（一）深度学习入门极简教程（二）深度学...
uniform机器学习极简入门3—KMeans
1 kmeans算法概述往往在实际数据分析中，我们需要发现数据的一些内在规律，但是数据一般都是未标注，因此希望通...
uniform机器学习极简入门4—高斯混合聚类（GMM Gau
uniform机器学习极简入门3 我们介绍了KMeans的基本概念，这个方法是给每个样本归属一个类别，我们可以找出...
LDA 与 LSA、PLSA、NMF相比
“pLSA模型的作者Thomas Hoffmann提出的机器学习算法是EM。EM是各种机器学习inference算...
[机器学习入门] 李弘毅机器学习笔记-16 （Unsupervi
[机器学习入门] 李弘毅机器学习笔记-16 （Unsupervised Learning: Neighbor Em...
EM算法及实现
周志华老师在《机器学习》里这样评价 EM算法：EM算法是最常见的隐变量估计方法，在机器学习里有着极为广泛的用途，例...
uniform机器学习极简入门6—聚类算法2(DBSCAN和层次
前面我们已经分别介绍了Kmeans和GMM聚类模型，下面我们再介绍两个很实用的聚类算法。 DBSCAN密度聚类 K...
<机器学习> EM算法
文章参考来源： CS229和PRML中关于EM的推导的过程。文章内容： 1. 不考虑数据点独立性的EM算法 E步...