Aneja J, Schwing A, Kautz J, et al. A contrastive learning approach for training variational autoencoder priors[J]. Advances in Neural Information Processing Systems, 2021, 34.
摘要翻译:
变分自编码器(VAE)是强大的基于似然的生成模型之一,在许多领域都有应用。然而,它们很难生成高质量的图像,特别是当从先验中获得的样本没有经过任何调节时。对VAE生成质量差的一个解释是 prior hole problem:即先验分布不能与总体后验近似。由于这种不匹配,潜伏空间中存在着在先验下密度很高的区域,而这些区域并不对应于任何编码图像。从这些区域的采样通常被解码为质量较差的图像。为了解决这个问题,我们提出了一个基于能量的先验,由一个基先验分布和一个重加权因子的乘积定义,旨在使基础的先验更接近聚合后验。我们通过噪声对比估计来训练重加权因子,并将其推广到具有许多潜在变量组的层次VAEs中。提出的方法很简单,可以应用于各种VAEs,以提高其先验分布的表达性。
Intro
作者的一个核心思想是:先验和聚合后验之间的不匹配可以通过重新加权先验来减少,从而重新调整其与聚合后验不匹配区域的可能性。可以简单的由下图描述。主要的贡献点可以概括如下:
(1)提出了一种EBM先验称为噪声对比先验(NCP),它通过对比基础先验的后验样本来训练。
(2)展示了这种对比先验是如何在具有许多潜在变量组的层次VAEs上进行训练的。
Noise Contrastive Priors (NCPs)
造成prior hole问题的主要原因之一是先验的表达力有限,使其无法与聚合后验相匹配。最近,EDM在表示复杂分布方面显示出了良好的结果。受此启发,作者提出了噪声对比先验(NCP)
其中,是基础的先验,如正态分布;是一个重加权因子;是一个标准化常数计算为:函数 将隐变量映射为一个正标量(这部分可以由神经网络来实现)。
作者这里强调,通常的关于重加权因子的计算是使用MCMC算法进行训练。然而,MCMC需要昂贵的采样迭代,但无法扩展到分层vae。为了解决这个问题,提出了一种基于噪声对比估计的方法来训练来取代MCMC过程。
- Two-stage Training for Noise Contrastive Priors
为了正确地学习重加权因子,NCE训练要求基础先验分布接近目标分布。为此,提出的算法分两阶段进行。在第一阶段,只用基础先验分布来训练VAE;在训练结束时,尽可能地接近于目标分布。在第二阶段,冻结训练过的VAE模型,包括近似的后验,基础先验和似然,只训练重加权因子。第二阶段可以被认为是用取代基础分布。整个的训练过程如图所示: - Learning The Reweighting Factor with Noise Contrastive Estimation
最大化之前关于先验参数的变分界等价于通过最小化来缩小关于的先验和聚合后验之间的差距。假设中的基础分部在第一阶段的训练之后固定,并且当时,为零。然而,由于分布的密度函数并不已知,所以我们不能显式地计算这个比率。因此,作者使用Noise Contrastive Estimation来估计,也被称为似然比技巧。因为,我们可以同时从和中生成样本,
使用q(z)的样本生成 构建一个二值分类器,通过最小化二值交叉熵来区分来自和基础先验的样本。其中,是一个生成分类预测概率的二值分类器。 Loss
理论上,当 时,损失达到最小。用表示最优分类器,由此可以估计重加权因子为 r(z)的估计 -
Test Time Sampling
为了从带有NCP的VAE中进行采样,我们首先从NCP中生成样本,并将它们传递给解码器以生成输出样本。
作者给出了两种采样生成样本的方式:
- Sampling-Importance-Resampling (SIR):
从字面意思可以看出,其过程分为:采样,重要性计算重采样。首先从基础先验分布中生成M个样本:。然后,使用与成比例的重要性权重来重新采样M中的一个样本。 - Langevin Dynamics (LD): 作为一个能量函数,我们通过从中抽取来初始化样本,并使用以下方法迭代更新样本: 为step size。LD的迭代次数有限,与SIR相比,由于它的顺序形式,其速度较慢。
还需要细品。
网友评论