美文网首页
论文阅读“Advances in Variational Inf

论文阅读“Advances in Variational Inf

作者: 掉了西红柿皮_Kee | 来源:发表于2022-01-22 22:34 被阅读0次

    Zhang C, Bütepage J, Kjellström H, et al. Advances in variational inference[J]. IEEE transactions on pattern analysis and machine intelligence, 2018, 41(8): 2008-2026.
    --
    该论文为综述性论文,所以笔者打算分几部分来完成论文的阅读。(都是因为太菜了
    本部分为Accurate VI: Beyond KL & Meanfield

    本部分旨在介绍提高标准 VI 准确性的各种方法。前面介绍了SVI的相关工作。这些领域的大部分工作仍然涉及 MFVI 的标准设置,并使用 KL 散度作为分布之间的度量。在这里,主要探讨超出此设置的最新发展,目的是避免局部最优和提高 VI 的准确性。

    VI with Alternative Divergences

    KL 散度通常提供一种计算方便的方法来测量两个分布之间的距离。它为某些模型带来了分析上易于处理的期望表示。然而,传统的Kullback- Leibler变分推断(KLVI)存在低估后验方差等问题。在其他情况下,当多个模态接近时,基于KL的度量无法打破对称性,是一个相对松散的界。超越KL散度的新散度测度不仅在VI中起作用,而且在相关的近似推理方法如EP中也起作用。现有的在EP上的扩展可以看做是经典的EP方法使用了可代替的散度方法。但由于派生复杂和可伸缩性有限,从业者发现这些方法难以使用。VI最近的开发主要集中在一个黑盒(BB)方式的统一框架上,以实现可伸缩性和可访问性。BBVI使其他散度度量的应用成为可能,如\chi散度,同时保持方法的效率和简单性。
    下面介绍相关的散度度量方法,并且展示是如何应用到VI中的。

    • \alpha-Divergence
      从信息几何和计算的角度来看,\alpha散度是一类具有有趣性质的散度度量。KL散度和Hellinger距离都是\alpha-散度的特例。
      先给出Renyi's的公式: 其中,要求\alpha>0, \alpha\neq1。根据\alpha-散度的定义,\alpha越小,mass-covering效应越大,而a越大则会造成zero-forcing效应,意味着变分分布避免了后验概率低的区域。当\alpha \to 1,变成了标准的VI,即KL散度。
      \alpha-散度在VI中应用的相关推导和标准VI类似: \alpha \geq 0, \alpha\neq1时,L_{\alpha}是对数边际似然的下界。当然,在上式的取值中,\alpha可以是负值,此时变为了上界(并不是散度)。
    • f-Divergence&通用VI
      \alpha-Divergence是f-Divergence中一个常用的子集, 这个关于f-divergence的定义就很强!!!可以试着推导下常用的KL散度和Person \chi^2距离。
      一般来说,只有特定的f才会产生边界,这个边界与边际似然无关,因此对于VI是有用的。例如,Zhang et al.【Supervised hierarchical Dirichlet processes with variational inference】利用琴生不等式得出了边际似然的下界: 对于标准ELBO而言,\tilde f=log,对于 zhang等人提出了如下公式: V_0为可优化的自由参数,并且可以吸收边界对边际似然的依赖。作者证明了V中线性阶的项对应KL散度,而高阶多项式是使界更紧的修正项。
    • Stein Discrepancy and VI
      Stein的方法最初是作为一个误差界提出的,用来衡量近似分布与兴趣分布的吻合程度。在这里,我们介绍Stein Discrepancy和两种使用Stein Discrepancy的VI方法:Stein variational Gradient Descent(SVGD)【Stein variational gradient descent: A general purpose Bayesian inference algorithm】和operator VI【Operator variational inference】。这两种方法目标相同,但优化的方式不同。
      Stein Discrepancy是一种积分概率度量,在VI中将其写成散度度量的形式: 因为在上式的第二项中,涉及到关于较难求的后验的期望。因此,只有在使得第二项为0时才适用于VI。
      可以看出,A其实是函数\phi关于隐含变量z的微分操作。
      operator VI使用minmax(GAN- style)公式和BBVI直接优化变分目标;而Stein variational Gradient Descent(SVGD)则使用了核化的Stein Discrepancy。通过特定的kernel和变分分布q的选择,SVGD决定了KL散度最陡梯度方向上的最佳扰动。
    Structured Variational Inference

    MFVI假设为全因子变分分布,无法捕捉后验相关性。当潜在变量高度依赖时,全因子变分模型的精度有限,例如在具有层次结构的模型中。允许结构化的变分分布来捕获潜在变量之间的依赖关系是一种建模选择;不同的依赖关系可能或多或少是相关的,并且取决于所考虑的模型。对于时序相关的变分推断,一般使用HMMs和HSMM等,不进行赘述。这里我们只涉及Hierarchical VI。

    对于许多模型来说,通过保持隐变量之间的相关性可以使变分近似更有表达力,但这些相关性使估计变分界的梯度变得更加困难。层级变分模型(HVM)【Hierarchical variational models】是一个用于结构化变分分布的BBVI框架,它适用于广泛的一类模型。构造隐变量之间的依赖性,这里总结了两种常用的方法。

    • mean-field变分分布
      为了捕获隐变量之间的依赖性,关于mean-field的变分分布 转换为对变分参数\lambda的估计,并且将q( \lambda,\theta)带入表示为 因此,新的变分分布q( \lambda,\theta)通过边缘化过程捕捉依赖性。通过模拟分层过程,也可以从这个分布中采样。通过进一步降低层次模型的熵值和抽样,得到的ELBO可以变得易于处理。
    • copula VI
      另一种建立隐变量依赖的方式为copula VI。copula VI没有使用完全分解的变分分布,而是采用变分族形式: Q(z_i)为边际累积分布,在他们的联合分布中保留了隐变量的相关性。

    当然还有很多关于提高VI精度的方法。例如"VI With Mixture Distributions", "VI by Stochastic Gradient Descent"等。因为不懂,所以这里只是做一个记录。 菜狗出没,别耽误大家

    相关文章

      网友评论

          本文标题:论文阅读“Advances in Variational Inf

          本文链接:https://www.haomeiwen.com/subject/swxphrtx.html