ELBO 梯度估计

作者: WilliamY | 来源:发表于2019-11-22 11:32 被阅读0次

ELBO 梯度估计
Pyro简介：产生式模型实现库（五）SVI三
2018-12-20神经网络梯度检查
主要知识点
EM算法及理解
变分法相关小知识
深入浅出--梯度下降法及其实现
梯度下降和梯度上升
（三）线性回归--梯度下降
吴恩达机器学习笔记（3）

问题

对于观察（observation） $x$ 和隐变量 $z$ ，其联合概率密度为
$p_\theta(x, z) = p_\theta(x|z)p_\theta(z)$
变分分布为 $q_\phi(z)$ 。这里的 $\phi$ 和 $\theta$ 为模型（model）和变分分布（guide）的参数。【注：所谓变分就是将原始函数换作另一（易处理的）函数的数学技巧】
目标为最大化证据（evidence）的对数形式 $\log p_\theta(x)$ 。而通常做法是最大化“（对数的）证据下限”ELBO（evidence lower bound），其形式如下：
$ELBO \equiv \mathbb{E}_{q_\phi(z)}[\log p_\theta(x, z) - \log q_\phi(z)]$
ELBO和证据的对数，二者之差为：
$\log p_\theta(x)-ELBO=KL[q_\phi(z)||p_\theta(z|x)]$
ELBO的无偏梯度估计为：
$\nabla_{\theta, \phi} ELBO=\nabla_{\theta, \phi}\mathbb{E}_{q_\phi(z)}[\log p_\theta(x, z) - \log q_\phi(z)]$
我们考虑一个更一般的形式：
$\nabla_{\phi} \mathbb{E}_{q_\phi(z)}[f_\phi(z)]$
【注：这里的 $\phi$ 指代更一般化的参数，和ELBO中狭义的 $\phi$ 不同。】

题外话： $q_\phi(z)$ 的最优值等于 $p_\theta(z|x)$

我们借用结论 $\int q_\phi(z)dz = 1$ ，我们使用拉格朗日法：
$\frac{\delta}{\delta q_\phi(z)}[-ELBO-\lambda(x)\int q_\phi(z)dz]$
$=-\log p_\theta(x, z) + \log q_\phi(z)-\lambda(x)=0$
$q^*_\phi(z)=p_\theta(x, z)e^{\lambda(x)}$
当我们取 $\lambda(x)=-\log p_\theta(x)$ 时，
$q^*_\phi(z)=p_\theta(z|x)$
这时的后验概率恰好有 $ELBO=-\lambda(x)=\log p_\theta(x)$

易处理的情况：可重参数化的随机变量

假如我们能够对随机变量 $z$ 重参数化为
$\mathbb{E}_{q_\phi(z)}[f_\phi(z)]=\mathbb{E}_{q(\epsilon)}[f_\phi(g_\phi(\epsilon))]$
也就是说，我们把对 $\phi$ 依赖的项，全部放在求期望的范围里（即用E给“框”在里面），这时候 $q(\epsilon)$ 就不再依赖于 $\phi$ 了。
这样的重参数化操作，可以对许多分布使用（比如高斯分布）。这样我们就得到梯度估计：
$\nabla_\phi \mathbb{E}_{q(\epsilon)}[f_\phi(g_\phi(\epsilon))]=\mathbb{E}_{q(\epsilon)}[\nabla_\phi f_\phi(g_\phi(\epsilon))]$
这里假定 $f$ 和 $g$ 都是光滑的（即可导的），我们就可以用蒙特卡洛法（将多次观察求平均）求解上述无偏的梯度估计了。

取巧的情况：非重参数化的随机变量

如果不能使用重参数化，例如分布是离散的，这时上面的技巧就不管用了。
我们将梯度估计量展开：
$\nabla_\phi \mathbb{E}_{q_\phi(z)}[f_\phi(z)]=\nabla_\phi \int q_\phi(z)f_\phi(z)dz$
由链式法则，我们继续展开：
$\int \{(\nabla_\phi q_\phi(z)) f_\phi(z) + q_\phi(z) \nabla_\phi f_\phi(z)\}dz$
对于 $\nabla_\phi q_\phi(z)$ 存在恒等式
$\nabla_\phi q_\phi(z) = q_\phi(z)\nabla_\phi \log q_\phi(z)$
代入上式得：
$\mathbb{E}_{q(\epsilon)}[(\nabla_\phi \log q_\phi(z)) f_\phi(z) + \nabla_\phi f_\phi(z)]$
我们把求期望和梯度的项写在一起，称为“代理目标”（surrogate objective）：
$surrogate \ objective \equiv \log q_\phi(z) \overline{f_\phi(z)} + f_\phi(z)$
于是ELBO的梯度无偏估计为
$\nabla_\phi ELBO = \mathbb{E}_{q_\phi(z)}[\nabla_\phi (surrogate \ objective)]$ 。
$\overline{f_\phi(z)}$ 的横线表示该项对 $\phi$ 来说是常数，不对 $\phi$ 求导数。

减少梯度估计的方差

考虑下面的等式:
$\mathbb{E}_{q_{\phi}({\bf z})} \left [\nabla_{\phi} (\log q_{\phi}({\bf z}) \cdot b) \right]=0$
其中 $b$ 为任意的常数。这是因为：
$\mathbb{E}_{q_{\phi}({\bf z})} \left [\nabla_{\phi} \log q_{\phi}({\bf z}) \right]= \int \!d{\bf z} \; q_{\phi}({\bf z}) \nabla_{\phi} \log q_{\phi}({\bf z})= \int \! d{\bf z} \; \nabla_{\phi} q_{\phi}({\bf z})= \nabla_{\phi} \int \! d{\bf z} \; q_{\phi}({\bf z})=\nabla_{\phi} 1 = 0$
于是，对于 $\log q_{\phi}({\bf z}_i) \overline{f_{\phi}({\bf z})}$ ，我们利用上述等式，用下面的项代替：
$\log q_{\phi}({\bf z}_i) (\overline{f_{\phi}({\bf z})}-b)$
二者的梯度的期望是相同的。更妙的是， $b$ 不必是常数，只要对下游任务没有影响即可。所以 $b$ 可设为上游任务，自变量为 $z_i$ 的函数。
参考文献：http://pyro.ai/examples/svi_part_iii.html

ELBO 梯度估计
问题对于观察（observation）和隐变量，其联合概率密度为变分分布为。这里的和为模型（model）和变分分...
Pyro简介：产生式模型实现库（五）SVI三
【这和ELBO 梯度估计[https://www.jianshu.com/p/fbe9b8929783]前一半是一...
2018-12-20神经网络梯度检查
梯度检查将确保我们的反向传播按预期工作。梯度的数值估计：代码表示我们之前看到过如何计算deltaVector...
主要知识点
SVM 决策树贝叶斯梯度下降 SVD与PCA 凸优化局部最优解，最大似然估计
EM算法及理解
1. EM算法是求解含有隐变量的极大似然估计参数的迭代算法。 2. 极大似然估计可以用梯度下降法求解，但是如果概...
变分法相关小知识
ELBO（Evidence Lower Bound）证据下界我们有可观测数据集，有不知从哪找来的隐变量，贝叶...
深入浅出--梯度下降法及其实现
梯度下降的场景假设梯度梯度下降算法的数学解释梯度下降算法的实例梯度下降算法的实现Further reading 本...
梯度下降和梯度上升
梯度上升与梯度下降 - HIT-security - 博客园不管梯度下降还是梯度上升，随着迭代的进行，梯度都是在...
（三）线性回归--梯度下降
一、梯度下降二、代码的实现（一.梯度下降）导包构建数据梯度下降使用梯度下降，可视化 (二。梯度下降矩阵...
吴恩达机器学习笔记（3）
多变量线性回归：问题：根据多个属性，如房子面积，房子楼层，房子年龄等估计房子的价格参数特征缩放——加速梯度下降...

ELBO 梯度估计