varational inference
背景
在贝叶斯框架下,推断一般指的是后验分布,即,我们并不知道后验分布的形式,甚至知道后验分布的形式,但仍然难以计算出该形式下的参数。因此,我们希望找到一种近似分布用于描述后验分布。
变分推断
(1)
对(1)式左右两边对变量求期望得到
(2)
由于KL-Divergence恒大于0,有
(3)
令
如果能在找到一个,此时取到极小值
等价于在中找到与最接近的分布。
变分推断与神经网络
背景
如何使用一个神经网络来表示一个密度函数?
变分推断(使用神经网络表示)的实质
根据背景介绍中的(3)式,我们可知是的LOWER BOUND,为了使最大,我们可以通过调整LOWER BOUND来使得log(p(x))最大化,但是由于log(p(x))并不依赖于q(z|x),只通过调整q(z|x)可以使得LOWER BOUND增大,但并不保证log(p(x))最大化。因此,为了使log(p(x))最大化,应该对p(x|z)和q(z|x)调整使得L(q(z|x),p(x|z))最大化。
分别使用两个神经网络来表示q(z|x),p(x|z),参数分别为φ、θ,可以形式化表达为优化问题:
为了找到,使用梯度上升法,通过调整使得增大。
其中
另外,由于,令,其中。
则有
从下图可以看出,只作用到网络的后半部分,黄色部分标记。
对于作用到整体网络,黄色部分标记,同时需要求得
网友评论