Pyro简介：产生式模型实现库（五）SVI三

作者: WilliamY | 来源:发表于2022-05-25 11:33 被阅读0次

Pyro简介：产生式模型实现库（五）SVI三
Pyro简介：产生式模型实现库（三），SVI 一
Pyro简介：产生式模型实现库（四），SVI 二
Pyro简介：产生式模型实现库（一），模型
Pyro简介：产生式模型实现库（二），推断
Pyro简介：产生式模型实现库（六），Pyro的张量尺寸
功能强大的python包（十一）：threading （多线程）
数据挖掘之产生模型VS判别模型
分布式 | 分布式锁的实现
产生式模型与判别式模型的区别

【这和ELBO 梯度估计前一半是一样的，后一半用Pyro代码解释】

问题

对于观察（observation） $x$ 和隐变量 $z$ ，其联合概率密度为
$p_\theta(x, z) = p_\theta(x|z)p_\theta(z)$
变分分布为 $q_\phi(z)$ 。这里的 $\phi$ 和 $\theta$ 为模型（model）和变分分布（guide）的参数。【注：所谓变分就是将原始函数换作另一（易处理的）函数的数学技巧】
目标为最大化证据（evidence）的对数形式 $\log p_\theta(x)$ 。而通常做法是最大化“（对数的）证据下限”ELBO（evidence lower bound），其形式如下：
$ELBO \equiv \mathbb{E}_{q_\phi(z)}[\log p_\theta(x, z) - \log q_\phi(z)]$
ELBO和证据的对数，二者之差为：
$\log p_\theta(x)-ELBO=KL[q_\phi(z)||p_\theta(z|x)]$
ELBO的无偏梯度估计为：
$\nabla_{\theta, \phi} ELBO=\nabla_{\theta, \phi}\mathbb{E}_{q_\phi(z)}[\log p_\theta(x, z) - \log q_\phi(z)]$
我们考虑一个更一般的形式：
$\nabla_{\phi} \mathbb{E}_{q_\phi(z)}[f_\phi(z)]$
【注：这里的 $\phi$ 指代更一般化的参数，和ELBO中狭义的 $\phi$ 不同。】

易处理的情况：可重参数化的随机变量

假如我们能够对随机变量 $z$ 重参数化为
$\mathbb{E}_{q_\phi(z)}[f_\phi(z)]=\mathbb{E}_{q(\epsilon)}[f_\phi(g_\phi(\epsilon))]$
也就是说，我们把对 $\phi$ 依赖的项，全部放在求期望的范围里（即用E给“框”在里面），这时候 $q(\epsilon)$ 就不再依赖于 $\phi$ 了。
这样的重参数化操作，可以对许多分布使用（比如高斯分布）。这样我们就得到梯度估计：
$\nabla_\phi \mathbb{E}_{q(\epsilon)}[f_\phi(g_\phi(\epsilon))]=\mathbb{E}_{q(\epsilon)}[\nabla_\phi f_\phi(g_\phi(\epsilon))]$
这里假定 $f$ 和 $g$ 都是光滑的（即可导的），我们就可以用蒙特卡洛法（将多次观察求平均）求解上述无偏的梯度估计了。

取巧的情况：非重参数化的随机变量

如果不能使用重参数化，例如分布是离散的，这时上面的技巧就不管用了。
我们将梯度估计量展开：
$\nabla_\phi \mathbb{E}_{q_\phi(z)}[f_\phi(z)]=\nabla_\phi \int q_\phi(z)f_\phi(z)dz$
由链式法则，我们继续展开：
$\int \{(\nabla_\phi q_\phi(z)) f_\phi(z) + q_\phi(z) \nabla_\phi f_\phi(z)\}dz$
对于 $\nabla_\phi q_\phi(z)$ 存在恒等式
$\nabla_\phi q_\phi(z) = q_\phi(z)\nabla_\phi \log q_\phi(z)$
代入上式得：
$\mathbb{E}_{q(\epsilon)}[(\nabla_\phi \log q_\phi(z)) f_\phi(z) + \nabla_\phi f_\phi(z)]$
我们把求期望和梯度的项写在一起，称为“代理目标”（surrogate objective）：
$surrogate \ objective \equiv \log q_\phi(z) \overline{f_\phi(z)} + f_\phi(z)$
于是ELBO的梯度无偏估计为
$\nabla_\phi ELBO = \mathbb{E}_{q_\phi(z)}[\nabla_\phi (surrogate \ objective)]$ 。
$\overline{f_\phi(z)}$ 的横线表示该项对 $\phi$ 来说是常数，不对 $\phi$ 求导数。

减少梯度估计的方差

考虑下面的等式:
$\mathbb{E}_{q_{\phi}({\bf z})} \left [\nabla_{\phi} (\log q_{\phi}({\bf z}) \cdot b) \right]=0$
其中 $b$ 为任意的常数。这是因为：
$\mathbb{E}_{q_{\phi}({\bf z})} \left [\nabla_{\phi} \log q_{\phi}({\bf z}) \right]= \int \!d{\bf z} \; q_{\phi}({\bf z}) \nabla_{\phi} \log q_{\phi}({\bf z})= \int \! d{\bf z} \; \nabla_{\phi} q_{\phi}({\bf z})= \nabla_{\phi} \int \! d{\bf z} \; q_{\phi}({\bf z})=\nabla_{\phi} 1 = 0$
于是，对于 $\log q_{\phi}({\bf z}_i) \overline{f_{\phi}({\bf z})}$ ，我们利用上述等式，用下面的项代替：
$\log q_{\phi}({\bf z}_i) (\overline{f_{\phi}({\bf z})}-b)$
二者的梯度的期望是相同的。更妙的是， $b$ 不必是常数，只要对下游任务没有影响即可。所以 $b$ 可设为上游任务，自变量为 $z_i$ 的函数。
参考文献：http://pyro.ai/examples/svi_part_iii.html

Pyro简介：产生式模型实现库（五）SVI三
【这和ELBO 梯度估计[https://www.jianshu.com/p/fbe9b8929783]前一半是一...
Pyro简介：产生式模型实现库（三），SVI 一
问题设定我们在前面的教程中，用Pyro定义过model函数（过程如简介（一））。这里快速回忆一下model的用法...
Pyro简介：产生式模型实现库（四），SVI 二
目标：将SVI应用到大型数据集假定我们研究的问题涉及N个观察数据，通过model和guide计算ELBO的复杂度...
Pyro简介：产生式模型实现库（一），模型
简介：用Python框架实现产生式模型，最基本要实现的，就是概率函数。这类函数的实现，包含两个要素确定性的Py...
Pyro简介：产生式模型实现库（二），推断
我们仍然以一个例子来说明Pyro的推断功能。首先，我们引入头文件。例子：测量物体的重量假如我们要测量物体的重量...
Pyro简介：产生式模型实现库（六），Pyro的张量尺寸
太长不看版模型在学习或调试过程中，设置pyro.enable_validation(True)；张量的“广播”...
功能强大的python包（十一）：threading （多线程）
1.threading简介 threading库是python的线程模型，利用threading库我们可以轻松实现...
数据挖掘之产生模型VS判别模型
1.概述产生式模型：无穷样本-->概率密度模型-->产生模型-->预测判别式模型：有限样本-->判别函数-->...
分布式 | 分布式锁的实现
分布式锁的实现在常见的分布式锁中有以下三种实现： Redis 实现 Zookeeper 实现数据库实现分布式...
产生式模型与判别式模型的区别
产生式模型(Generative Model)与判别式模型(Discrimitive Model)是分类器常遇到的...

Pyro简介：产生式模型实现库（五）SVI三

问题

易处理的情况：可重参数化的随机变量

取巧的情况：非重参数化的随机变量

减少梯度估计的方差

相关文章

Pyro简介：产生式模型实现库（五）SVI三

Pyro简介：产生式模型实现库（三），SVI 一

Pyro简介：产生式模型实现库（四），SVI 二

Pyro简介：产生式模型实现库（一），模型

Pyro简介：产生式模型实现库（二），推断

Pyro简介：产生式模型实现库（六），Pyro的张量尺寸

功能强大的python包（十一）：threading （多线程）

数据挖掘之产生模型VS判别模型

分布式 | 分布式锁的实现

产生式模型与判别式模型的区别

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读