Aneja J, Schwing A, Kautz J, et al. A contrastive learning approach for training variational autoencoder priors[J]. Advances in Neural Information Processing Systems, 2021, 34.
摘要翻译:
变分自编码器(VAE)是强大的基于似然的生成模型之一,在许多领域都有应用。然而,它们很难生成高质量的图像,特别是当从先验中获得的样本没有经过任何调节时。对VAE生成质量差的一个解释是 prior hole problem:即先验分布不能与总体后验近似。由于这种不匹配,潜伏空间中存在着在先验下密度很高的区域,而这些区域并不对应于任何编码图像。从这些区域的采样通常被解码为质量较差的图像。为了解决这个问题,我们提出了一个基于能量的先验,由一个基先验分布和一个重加权因子的乘积定义,旨在使基础的先验更接近聚合后验。我们通过噪声对比估计来训练重加权因子,并将其推广到具有许多潜在变量组的层次VAEs中。提出的方法很简单,可以应用于各种VAEs,以提高其先验分布的表达性。
Intro
作者的一个核心思想是:先验和聚合后验之间的不匹配可以通过重新加权先验来减少,从而重新调整其与聚合后验不匹配区域的可能性。可以简单的由下图描述。
主要的贡献点可以概括如下:
(1)提出了一种EBM先验称为噪声对比先验(NCP),它通过对比基础先验的后验样本来训练。
(2)展示了这种对比先验是如何在具有许多潜在变量组的层次VAEs上进行训练的。
Noise Contrastive Priors (NCPs)
造成prior hole问题的主要原因之一是先验的表达力有限,使其无法与聚合后验相匹配。最近,EDM在表示复杂分布方面显示出了良好的结果。受此启发,作者提出了噪声对比先验(NCP)


函数

作者这里强调,通常的关于重加权因子的计算是使用MCMC算法进行训练。然而,MCMC需要昂贵的采样迭代,但无法扩展到分层vae。为了解决这个问题,提出了一种基于噪声对比估计的方法来训练
来取代MCMC过程。
- Two-stage Training for Noise Contrastive Priors
为了正确地学习重加权因子,NCE训练要求基础先验分布接近目标分布。为此,提出的算法分两阶段进行。在第一阶段,只用基础先验分布来训练VAE;在训练结束时,
尽可能地接近于目标分布
。在第二阶段,冻结训练过的VAE模型,包括近似的后验
,基础先验
和似然
,只训练重加权因子
。第二阶段可以被认为是用
取代基础分布
。整个的训练过程如图所示:
- Learning The Reweighting Factor with Noise Contrastive Estimation
最大化之前关于先验参数的变分界等价于通过最小化来缩小关于
的先验和聚合后验之间的差距。假设
中的基础分部
在第一阶段的训练之后固定,并且当
时,
为零。然而,由于分布
的密度函数并不已知,所以我们不能显式地计算这个比率。因此,作者使用Noise Contrastive Estimation来估计
,也被称为似然比技巧。因为,我们可以同时从
和
中生成样本,
使用q(z)的样本生成 构建一个二值分类器,通过最小化二值交叉熵来区分来自
和基础先验
的样本。其中,
是一个生成分类预测概率的二值分类器。
Loss
理论上,当时,损失达到最小。用
表示最优分类器,由此可以估计重加权因子
为
r(z)的估计
-
Test Time Sampling
为了从带有NCP的VAE中进行采样,我们首先从NCP中生成样本,并将它们传递给解码器以生成输出样本。
作者给出了两种采样生成样本的方式:
- Sampling-Importance-Resampling (SIR):
从字面意思可以看出,其过程分为:采样,重要性计算重采样。首先从基础先验分布中生成M个样本:。然后,使用与成比例的重要性权重
来重新采样M中的一个样本。
- Langevin Dynamics (LD):
作为一个能量函数,我们通过从
中抽取来初始化样本
,并使用以下方法迭代更新样本:
为step size。LD的迭代次数有限,与SIR相比,由于它的顺序形式,其速度较慢。
还需要细品。
网友评论