论文阅读“A Contrastive Learning Appr

作者: 掉了西红柿皮_Kee | 来源:发表于2021-11-29 00:42 被阅读0次

论文阅读“A Contrastive Learning Appr
GraphCL：基于数据增强的图对比学习
JOAO：自动化选择数据增强的GraphCL
GCA：基于自适应数据增强的图对比学习
DSGC：双空间图对比学习
MVGRL：多视图图对比学习
AutoGCL：基于可学习视图生成器的自动图对比学习
论文阅读“Deep Contrastive Learning f
论文阅读“Contrastive Learning-Enhanc
多对多多语言神经机器翻译的对比学习

Aneja J, Schwing A, Kautz J, et al. A contrastive learning approach for training variational autoencoder priors[J]. Advances in Neural Information Processing Systems, 2021, 34.

摘要翻译：

变分自编码器（VAE）是强大的基于似然的生成模型之一，在许多领域都有应用。然而，它们很难生成高质量的图像，特别是当从先验中获得的样本没有经过任何调节时。对VAE生成质量差的一个解释是 prior hole problem：即先验分布不能与总体后验近似。由于这种不匹配，潜伏空间中存在着在先验下密度很高的区域，而这些区域并不对应于任何编码图像。从这些区域的采样通常被解码为质量较差的图像。为了解决这个问题，我们提出了一个基于能量的先验，由一个基先验分布和一个重加权因子的乘积定义，旨在使基础的先验更接近聚合后验。我们通过噪声对比估计来训练重加权因子，并将其推广到具有许多潜在变量组的层次VAEs中。提出的方法很简单，可以应用于各种VAEs，以提高其先验分布的表达性。

Intro

作者的一个核心思想是：先验和聚合后验之间的不匹配可以通过重新加权先验来减少，从而重新调整其与聚合后验不匹配区域的可能性。可以简单的由下图描述。

主要的贡献点可以概括如下：
（1）提出了一种EBM先验称为噪声对比先验(NCP)，它通过对比基础先验的后验样本来训练。
（2）展示了这种对比先验是如何在具有许多潜在变量组的层次VAEs上进行训练的。

Noise Contrastive Priors (NCPs)

造成prior hole问题的主要原因之一是先验的表达力有限，使其无法与聚合后验相匹配。最近，EDM在表示复杂分布方面显示出了良好的结果。受此启发，作者提出了噪声对比先验(NCP)

其中，

p(z)

是基础的先验，如正态分布；

r(z)

是一个重加权因子；

Z

是一个标准化常数计算为：

函数

r

将隐变量

z \in R^n

映射为一个正标量（这部分可以由神经网络来实现）。

作者这里强调，通常的关于重加权因子的计算 $r(z)$ 是使用MCMC算法进行训练。然而，MCMC需要昂贵的采样迭代，但无法扩展到分层vae。为了解决这个问题，提出了一种基于噪声对比估计的方法来训练 $p_{NCP}(z)$ 来取代MCMC过程。

Two-stage Training for Noise Contrastive Priors
为了正确地学习重加权因子，NCE训练要求基础先验分布接近目标分布。为此，提出的算法分两阶段进行。在第一阶段，只用基础先验分布 $p(z)$ 来训练VAE；在训练结束时， $p(z)$ 尽可能地接近于目标分布 $q(z)$ 。在第二阶段，冻结训练过的VAE模型，包括近似的后验 $q(z|x)$ ，基础先验 $p(z)$ 和似然 $p(x|z)$ ，只训练重加权因子 $r(z)$ 。第二阶段可以被认为是用 $pNCP(z)∝r(z)p(z)$ 取代基础分布 $p(z)$ 。整个的训练过程如图所示：
Learning The Reweighting Factor with Noise Contrastive Estimation
最大化之前关于先验参数的变分界等价于通过最小化 $KL(q(z)||pNCP(z)$ 来缩小关于 $pNCP(z)$ 的先验和聚合后验之间的差距。假设 $pNCP(z)$ 中的基础分部 $p(z)$ 在第一阶段的训练之后固定，并且当 $r(z)=q(z)/p(z)$ 时， $KL(q(z)||pNCP(z))$ 为零。然而，由于分布 $q(z)$ 的密度函数并不已知，所以我们不能显式地计算这个比率。因此，作者使用Noise Contrastive Estimation来估计 $r(z)$ ，也被称为似然比技巧。因为，我们可以同时从 $p(z)$ 和 $q(z)$ 中生成样本，
使用q(z)的样本生成构建一个二值分类器，通过最小化二值交叉熵来区分来自 $q(z)$ 和基础先验 $p(z)$ 的样本。其中， $D：R^n→（0,1）$ 是一个生成分类预测概率的二值分类器。 Loss
理论上，当时，损失达到最小。用 $D^*(z)$ 表示最优分类器，由此可以估计重加权因子 $r(z)$ 为 r(z)的估计
Test Time Sampling

为了从带有NCP的VAE中进行采样，我们首先从NCP中生成样本，并将它们传递给解码器以生成输出样本。
作者给出了两种采样生成样本的方式：

Sampling-Importance-Resampling (SIR):
从字面意思可以看出，其过程分为：采样，重要性计算重采样。首先从基础先验分布中生成M个样本： $\{z^{(m)}\}^M_{m=1}∼p(z)$ 。然后，使用与成比例的重要性权重 $w^{(m)}=p_{NCP}(z^{(m)})/p(z^{(m)})=r(z^{(m)})$ 来重新采样M中的一个样本。
Langevin Dynamics (LD): 作为一个能量函数，我们通过从 $p(z)$ 中抽取来初始化样本 $z_0$ ，并使用以下方法迭代更新样本： $\lambda$ 为step size。LD的迭代次数有限，与SIR相比，由于它的顺序形式，其速度较慢。

还需要细品。

论文阅读“A Contrastive Learning Appr
Aneja J, Schwing A, Kautz J, et al. A contrastive learnin...
GraphCL：基于数据增强的图对比学习
论文标题：Graph Contrastive Learning with Augmentations论文链接：ht...
JOAO：自动化选择数据增强的GraphCL
论文标题：Graph Contrastive Learning Automated论文链接：https://arx...
GCA：基于自适应数据增强的图对比学习
论文标题：Graph Contrastive Learning with Adaptive Augmentatio...
DSGC：双空间图对比学习
论文标题：Dual Space Graph Contrastive Learning论文链接：https://ar...
MVGRL：多视图图对比学习
论文标题：Contrastive Multi-View Representation Learning on Gr...
AutoGCL：基于可学习视图生成器的自动图对比学习
论文标题：AutoGCL: Automated Graph Contrastive Learning via Le...
论文阅读“Deep Contrastive Learning f
Zhang M, Zhu Y, Wu S, et al. Deep Contrastive Learning fo...
论文阅读“Contrastive Learning-Enhanc
Wang R, Dai X. Contrastive Learning-Enhanced Nearest Neig...