【ML】EM 和 VAE

作者: ItchyHiker | 来源:发表于2018-08-13 20:15 被阅读0次

【ML】EM 和 VAE
【ML】EM Algorithm
可爱又治愈的晚安文案
VAE的加强版
VAE变分自编码
安徒生不后悔
rem和em和px vh vw和% 移动端长度单位
2020-02-05
CS20si 第10课: 变分自编码器(VAE)
QQ空间说说美化代码(全副武装)

Tags: MachineLearning

[TOC]

EM

EM就是Expectation Maximization，虽然读起来是一个词组，但是实际上是分为Expecation 和 Maximization两个步骤。EM算法是常用的参数隐藏变量(latent variable)估计的算法。
假设 $X$ 表示已观测变量集， $Z$ 表示隐藏变量集， $\Theta$ 为模型参数。基本思想为：若参数 $\Theta$ 已知，则可根据训练数据推断出最优隐藏变量 $Z$ 的值(E)；反之，若 $Z$ 的值已知，则可方便的对参数 $\Theta$ 做极大似然估计(M)。

EM算法任何隐藏变量模型或者数据增强过程中都有很大的用处。

算法推导

假设服从: $z \sim q(z)$ , 我们要求z的条件期望：
$E_p(z|x, \theta)[z]$
但我们知道q,那么此时我们可以定义损失函数为 $q(z)$ 和后验概率 $p(z|x,\theta)$ 之间的 $KL$ -divergence。

$\mathrm{KL}(q \vert\vert p) = D_{KL}(q, p) = E_q[log \frac{q}{p}] = -E_q[log \frac{p}{q}]$
$D_{KL}(q, p) = -E_q[log \frac{p(x, z \vert \theta)}{q\,p(x \vert \theta)}]$
$D_{KL}(q, p) = - \left( E_q[log \frac{p(x, z \vert \theta)}{q}] - E_q[log\,p(x \vert \theta)] \right)$
上式右边第二项不依赖于q,因此上式可以重写为：
$log\,p(x \vert \theta) = E_q[log \frac{p(x, z \vert \theta)}{q}] + D_{KL}(q, p)$
如果定义ELBO：
$\mathcal{L}(q, \theta) = E_q[log \frac{p(x, z \vert \theta)}{q}]$
那么： $logp(x|\theta) = ELBO + KL$ -devergence

ELBO:
$\mathcal{L}(q, \theta) = E_q[log \frac{p(x, z \vert \theta)}{q}] = E_q[log p(x, z \vert \theta)] - E_q[log\, q]$

a.png

E step:

此时令z真实分布p(z)等于后验概率分布，即KL散度为0：
$q(z) = p(z|x, \theta_{old})$

a.png

此时我们有了latent variable的后验概率分布，可以计算出latent variable的期望，新得到的latent variable的期望会在M步骤使用。

M step

此时我们有了在 $\theta_{old}$ 下， z的概率分布，通过最大化 $l(q,\theta)$ 来计算新的参数 $\theta_{new}$ 。

算法流程

55AuwG.png

实例

这里我们先生成二维高斯分布数据，然后人为让一部分数据的y变为0(成为隐藏变量)，然后通过整体数据的分布，来推测隐藏变量的分布。

import numpy as np
import scipy as sp
import matplotlib as mpl
import matplotlib.cm as cm
import matplotlib.pyplot as plt
import pandas as pd
pd.set_option('display.width', 500)
pd.set_option('display.max_columns', 100)
pd.set_option('display.notebook_repr_html', True)
import seaborn as sns
sns.set_style("whitegrid")
sns.set_context("poster")
import pymc3 as pm

def ynew(x, mu1, mu2, s1, s2, rho):
    return mu2 + rho*(s2/s1)*(x - mu1)

sig1=1
sig2=0.75
mu1=1.85
mu2=1
rho=0.82
means=np.array([mu1, mu2])
cov = np.array([
    [sig1**2, sig1*sig2*rho],
    [sig2*sig1*rho, sig2**2]
])


samples=np.random.multivariate_normal(means, cov, size=40)
samples_censored=np.copy(samples)
samples_censored[20:,1]=0
plt.plot(samples[:,0], samples[:,1], 'o', alpha=0.3)
plt.plot(samples_censored[:,0], samples_censored[:,1], 's', alpha=0.8)

mu1 = lambda s: np.mean(s[:,0])
mu2 = lambda s: np.mean(s[:,1])
s1 = lambda s: np.std(s[:,0])
s2 = lambda s: np.std(s[:,1])
rho = lambda s: np.mean((s[:,0] - mu1(s))*(s[:,1] - mu2(s)))/(s1(s)*s2(s))


mu1s=[]
mu2s=[]
s1s=[]
s2s=[]
rhos=[]
mu1s.append(mu1(samples_censored))
mu2s.append(mu2(samples_censored))
s1s.append(s1(samples_censored))
s2s.append(s2(samples_censored))
rhos.append(rho(samples_censored))

newys=ynew(samples_censored[20:,0], mu1s[0], mu2s[0], s1s[0], s2s[0], rhos[0])

for step in range(1,40):
    samples_censored[20:,1] = newys
    #M-step calculate optimized parameters for the data distribution
    mu1s.append(mu1(samples_censored))
    mu2s.append(mu2(samples_censored))
    s1s.append(s1(samples_censored))
    s2s.append(s2(samples_censored))
    rhos.append(rho(samples_censored))
    #E-step make guession to latent/loss variables
    newys=ynew(samples_censored[20:,0], mu1s[step], mu2s[step], s1s[step], s2s[step], rhos[step])
plt.figure()
plt.plot(samples_censored[:,0], samples_censored[:,1], 's', alpha = 0.8)
plt.show()
df=pd.DataFrame.from_dict(dict(mu1=mu1s, mu2=mu2s, s1=s1s, s2=s2s, rho=rhos))
print(df)

551TUn.png

551HbG.png

由结果可以看出EM算法较好的模拟的隐藏变量y的数据分布。

VAE

算法推导

训练

VAE和EM算法比较相似，都是生成模型的一种，都是用来解决隐藏变量问题的。

The problem being solved by a VAE is the same as the problem being solved by EM — fitting the parameters of a probability distribution to given data where the model includes latent variables not specified in the data.

对于分类问题，给定样本X，我们希望得到z，建立模型 $z = f(x, w)$ , 使得 p(z|X)尽量大，此时我们得到的是判别模型(discriminant model)。和判别相对的是生成模型(generative model)，利用贝叶斯公式:
$p(z|X) = \frac{p(X|z)p(y)}{p(X)}$ 。
比如对于数字生成问题，你可以先随机生成一幅图片y，然后使得P(y|X)尽量大，此时就是判别模式。而我们先按照需要确定y, 然后在p(X|y)空间对X采样，此时得到的图片更加符合我们的预期。

假设我们有隐藏变量 $z \in \mathcal{Z}$ , 我们可以根据定义在 $\mathcal{Z}$ 上的概率函数p(z)对z进行采样，然后有函数 $f(z; \theta), \theta \in \Theta$ , $f: \mathcal{Z} \times \Theta \rightarrow \chi$ 。determistic函数f可以将随机变量z，映射到X空间。通过优化参数 $\theta$ (从样本中学习)使得映射函数生成的x和数据集中的X尽量相似。

$P(X) = \int P(X|z; \theta)P(z)dz$

55SLCr.png

关于p(z)的分布我们可以随机选择，这种方法效率太低，反之我们可以使用z的后验概率p(z|X)分布对z进行采样，此时z是在能够生成X的空间进行采样比随机采样复杂度要小很多。

首先我们使用任意分布q(z)逼近p(z|X), 选择KL散度衡量二者的相似性：
$KL(q(z)||p(z|X)) = \int q(z)log|\frac{q(z)}{p(z|X)}=\int q(z)[logq(z) - logp(z|X)]dz$
使用贝叶斯公式：
$KL(q(z)||p(z|X)) = \int q(z)[logq(z) - log(X|z) - logp(z) + logp(X)]dz =\int q(z)[logq(z) - log(X|z) - logp(z)]dz + logp(X)$
左右整理：
$logp(X) - KL(q(z)||p(z|X)) = \int q(z)logp(X|z)dz - KL(q(z)||p(z))$

实际上我们的最后生成的q(z)是依赖与X的，因此我们将q(z)替换为q(z|X),上式改写为：
$logp(X) - KL(q(z|X)||p(z|X)) = \int q(z)logp(X|z)dz - KL(q(z|X)||p(z))$
上面这个公式就是VAE中的核心公式

要使 $KL(q(z)||p(z|X)$ 尽量小，右侧第一项尽量大，第二项尽量小。其实这里我们得到了和EM算法中相同的目标函数，EM算法中，E部分就是让KL散度为0， M部分就是让 $\int q(z)logp(X|z)dz$ 尽量大。

左侧其实就是我们需要优化的目标，右侧可以通过SDG进行优化。我们注意到右侧的第一项其实就是一个decoder:分布p将latent variable decode为X，右侧第二项就是一个encoder:分布q将X encode为Z。那么如何对右侧的公式进行优化呢？

通常我们会选择 $q(z|X) = \mathcal{N}(z|\mu(X; \theta), \sum(X; \theta))\sum为对角矩阵$ ,z的先验p也是高斯分布的，那么，右侧第二项就可以写为：

55Skq6.png

右边第一项, $\int q(z)logp(X|z)dz$ , X的分布依赖于q(z)的分布，如果要估计 $\int q(z)logp(X|z)dz$ 的值，需要很多的z样。我们可以通过SGD，选一个样本z，然后将P(X|z)作为对 $\int q(z)logp(X|z)dz$ 的近似。

我们要优化的总公式此时为( $\mathcal{D}$ 为KL散度;)：

$E_{X\sim D}[logp(X) - \mathcal{D}[q(z|X) || p(z|X]] = E_{X\sim D}[E_{z\sim q}[logp(X|z) - D[q(z|X) || p(z)]]$

55xIsA.png

前面的我们提到要对z采样然后将p(X|z)作为对decoder对 $\int q(z)logp(X|z)dz$ 的近似，这相当于在模型训练的中间变量z做采样，然而SGD只能处理随机的输入，不能对中间变量进行处理，为了仍然能够使用SGD对model进行训练，VAE采用了一种叫做reparameterization trick的方法，这也是VAE区别与EM的最显著特征。相对于从 $\mathcal{N}(\mu(x), \sum(x))$ 采样，我们可以先采样 $\epsilon \in \mathcal{N}(0,I)$ , 然后计算 $z = \mu(X) + \sum^{1/2}(X)*\epsilon$ ，这样和直接采样得到的分布是一样的，但是可以简化计算：
$E_{X\sim D}[E_{\epsilon \sim \mathcal{N}(0,I)}[logp(X|z= \mu(X) + \sum^{1/2}(X)*\epsilon)] - D[q(z|X) || p(z)]]$

注意这个时候期望计算公式不会依赖于模型的参数。

测试

测试的时候直接输入 $z \sim \mathcal{N}(0,I)$ ,这个时候就没有encoder了。

55xf2R.png

最后推荐大家去看看这篇文章吧，解释的很清楚，就是要多看几遍, 也有代码实例。

实例

按照上面那篇文章自己实现的结果：

55xxVr.png

Reference

【ML】EM 和 VAE
Tags: MachineLearning [TOC] EM EM就是Expectation Maximizati...
【ML】EM Algorithm
EM Algorithm is short for Expectation-Maximization Algori...
可爱又治愈的晚安文案
❶ ?[em]e401137[/em] ???? ????�[em]e400107[/em] ❷ 忙碌和...
VAE的加强版
Pixel Pixel VAE IAF(Inverse Autoregressive Flow) GAN VAE+...
VAE变分自编码
代码实现引用代码[https://github.com/bojone/vae/blob/master/vae_...
安徒生不后悔
歌手：许嵩、bjxyuan 作词：Vae许嵩作曲：Vae许嵩歌词： ladies and gentleman ...
rem和em和px vh vw和% 移动端长度单位
1.rem和em、px 首先来说说em和px的关系 em是指字体高度浏览器默认1em=16px,所以0.75em...
2020-02-05
2020.2.4今日立春[em]e400123[/em] [em]e400123[/em]得今日读雪小禅和张爱玲...
CS20si 第10课: 变分自编码器(VAE)
第10课: 变分自编码器(VAE) CS20si课程资料和代码Github地址第10课: 变分自编码器(VAE)...
QQ空间说说美化代码(全副武装)
#(仅手机端和手机网页端有效)# 锁：[em]e10001[/em]竖屏手机：[em]e10002[/em]横屏手...

【ML】EM 和 VAE

EM

算法推导

E step:

M step

算法流程

实例

VAE

算法推导

训练

测试

实例

Reference

相关文章

【ML】EM 和 VAE

【ML】EM Algorithm

可爱又治愈的晚安文案

VAE的加强版

VAE变分自编码

安徒生不后悔

rem和em和px vh vw和% 移动端长度单位

2020-02-05

CS20si 第10课: 变分自编码器(VAE)

QQ空间说说美化代码(全副武装)

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读