美文网首页
论文阅读“A Contrastive Learning Appr

论文阅读“A Contrastive Learning Appr

作者: 掉了西红柿皮_Kee | 来源:发表于2021-11-29 00:42 被阅读0次

    Aneja J, Schwing A, Kautz J, et al. A contrastive learning approach for training variational autoencoder priors[J]. Advances in Neural Information Processing Systems, 2021, 34.

    摘要翻译:

    变分自编码器(VAE)是强大的基于似然的生成模型之一,在许多领域都有应用。然而,它们很难生成高质量的图像,特别是当从先验中获得的样本没有经过任何调节时。对VAE生成质量差的一个解释是 prior hole problem:即先验分布不能与总体后验近似。由于这种不匹配,潜伏空间中存在着在先验下密度很高的区域,而这些区域并不对应于任何编码图像。从这些区域的采样通常被解码为质量较差的图像。为了解决这个问题,我们提出了一个基于能量的先验,由一个基先验分布和一个重加权因子的乘积定义,旨在使基础的先验更接近聚合后验。我们通过噪声对比估计来训练重加权因子,并将其推广到具有许多潜在变量组的层次VAEs中。提出的方法很简单,可以应用于各种VAEs,以提高其先验分布的表达性。

    Intro
    作者的一个核心思想是:先验和聚合后验之间的不匹配可以通过重新加权先验来减少,从而重新调整其与聚合后验不匹配区域的可能性。可以简单的由下图描述。

    主要的贡献点可以概括如下:
    (1)提出了一种EBM先验称为噪声对比先验(NCP),它通过对比基础先验的后验样本来训练。
    (2)展示了这种对比先验是如何在具有许多潜在变量组的层次VAEs上进行训练的。

    Noise Contrastive Priors (NCPs)

    造成prior hole问题的主要原因之一是先验的表达力有限,使其无法与聚合后验相匹配。最近,EDM在表示复杂分布方面显示出了良好的结果。受此启发,作者提出了噪声对比先验(NCP)

    其中,p(z)是基础的先验,如正态分布;r(z)是一个重加权因子;Z是一个标准化常数计算为:

    函数r 将隐变量z \in R^n映射为一个正标量(这部分可以由神经网络来实现)。

    作者这里强调,通常的关于重加权因子的计算r(z)是使用MCMC算法进行训练。然而,MCMC需要昂贵的采样迭代,但无法扩展到分层vae。为了解决这个问题,提出了一种基于噪声对比估计的方法来训练p_{NCP}(z)来取代MCMC过程。

    • Two-stage Training for Noise Contrastive Priors
      为了正确地学习重加权因子,NCE训练要求基础先验分布接近目标分布。为此,提出的算法分两阶段进行。在第一阶段,只用基础先验分布p(z)来训练VAE;在训练结束时,p(z)尽可能地接近于目标分布q(z)。在第二阶段,冻结训练过的VAE模型,包括近似的后验q(z|x),基础先验p(z)和似然p(x|z),只训练重加权因子r(z)。第二阶段可以被认为是用pNCP(z)∝r(z)p(z)取代基础分布p(z)。整个的训练过程如图所示:
    • Learning The Reweighting Factor with Noise Contrastive Estimation
      最大化之前关于先验参数的变分界等价于通过最小化KL(q(z)||pNCP(z)来缩小关于pNCP(z)的先验和聚合后验之间的差距。假设pNCP(z)中的基础分部p(z)在第一阶段的训练之后固定,并且当r(z)=q(z)/p(z)时,KL(q(z)||pNCP(z))为零。然而,由于分布q(z)的密度函数并不已知,所以我们不能显式地计算这个比率。因此,作者使用Noise Contrastive Estimation来估计r(z),也被称为似然比技巧。因为,我们可以同时从p(z)q(z)中生成样本,
      使用q(z)的样本生成 构建一个二值分类器,通过最小化二值交叉熵来区分来自q(z)和基础先验p(z)的样本。其中,D:R^n→(0,1)是一个生成分类预测概率的二值分类器。 Loss
      理论上,当 时,损失达到最小。用D^*(z)表示最优分类器,由此可以估计重加权因子r(z) r(z)的估计
    • Test Time Sampling

      为了从带有NCP的VAE中进行采样,我们首先从NCP中生成样本,并将它们传递给解码器以生成输出样本。
      作者给出了两种采样生成样本的方式:
    1. Sampling-Importance-Resampling (SIR):
      从字面意思可以看出,其过程分为:采样,重要性计算重采样。首先从基础先验分布中生成M个样本:\{z^{(m)}\}^M_{m=1}∼p(z)。然后,使用与成比例的重要性权重w^{(m)}=p_{NCP}(z^{(m)})/p(z^{(m)})=r(z^{(m)})来重新采样M中的一个样本。
    2. Langevin Dynamics (LD): 作为一个能量函数,我们通过从p(z)中抽取来初始化样本z_0,并使用以下方法迭代更新样本: \lambda为step size。LD的迭代次数有限,与SIR相比,由于它的顺序形式,其速度较慢。

    还需要细品。

    相关文章

      网友评论

          本文标题:论文阅读“A Contrastive Learning Appr

          本文链接:https://www.haomeiwen.com/subject/lrqhxrtx.html