姓名:车文扬 学号:16020199006
转载至:https://www.cnblogs.com/huangxiao2015/p/5705238.html?utm_source=itdadao&utm_medium=referral,有删节
【嵌牛导读】:什么是变分法
【嵌牛鼻子】:变分法
【嵌牛提问】:变分法的含义是什么?
【嵌牛正文】:
变分法的基本思想是通过变分转换,将概率推理问题转化为一个变分优化问题来处理。具体描述如下: 设NN为一个贝叶斯网络,表示联合分布P(x)。设观测到的证据为E=e,所有非证据变量的集合为Z=Z1,Z2,...,Zn,准备计算的是P(E=e)和P(Z∣E=e)。 变分法首先把这个概率推理问题转换为变分优化问题,定义如下的目标函数:
这里Q(z)是一族用来近似P(Z∣E=e)的参数化分布,称为变分分布,而KL[Q(z),P(Z∣E=e)]KL[Q(z),P(Z∣E=e)]是变分分布Q(z)和待求的后验概率分布P(Z∣E=e)之间的KL距离。上式可以展开为:
其中,上式中HQ(Z)是ZZ相对于变分分布的Q(Z)的熵。 考虑目标函数J(Q)的最大值点Q∗的性质,因为KL距离非负,且只有当它涉及到的两个分布相同的时候才能够取得最小值0,所以J(Q)取最大值的最优变分分布就是后验概率,即
因此,只要解决了这个变分优化问题,就得到了原概率问题的精确解。在实际中,上述变分优化问题的精确解其实并不容易得到,一个根本的原因就是变分分布Q(Z)的空间难以显示表达。因此,为了简化计算,朴素平均场法根据平均场理论的思想,将变分分布限制在一类简单的分布上,即用所有变量都相互独立的分布来近似后验分布,即:
代入前式
该式一般没有闭公式解,根据上上式,变分分布Q(Z)的边缘分布可以独立地改变,因此,可以利用如下的迭代法来优化目标函数J(Q):
网友评论