美文网首页
LAP GAN 翻译

LAP GAN 翻译

作者: zelda2333 | 来源:发表于2020-09-26 17:32 被阅读0次

论文:http://arxiv.org/abs/1506.05751
Torch 代码:https://github.com/facebookarchive/eyescream

介绍

在本文中,我们介绍了一种能够生成高质量自然图像样本的生成参数模型。我们的方法在Laplacian金字塔框架内使用级联的卷积网络,以从粗到精的方式生成图像。在金字塔的每个层次上,使用生成对抗网络(GAN)方法训练一个单独的生成卷积模型[10]。从我们的模型中抽取的样本的质量明显高于替代方法。在人工评估人员的定量评估中,我们的CIFAR10样本在40%的时间内被误认为是真实图像,而从GAN基线模型中抽取的样本则被误认为是真实图像。我们还显示了在LSUN场景数据集的高分辨率图像上训练的模型样本

结构

假设 d(.) 是下采样操作,u(.) 是上采样操作。我们首先构建一个高斯金字塔,G(I)=[I_0,I_1,...,I_K] ,其中,I_0 = II_K是 对图片 I 下采样 K 次 。K表示金字塔的层数。

拉普拉斯金字塔 L(I) 的每一层 k 的系数 h_k 是通过取高斯金字塔中相邻两层的差来构造的,用u(.)对较小的一级进行上采样,使其大小相同。

直观地,每一层都以特定的尺度捕捉图像结构。Laplacian金字塔 h_K的最终层不是差分图像,而是一个等于最终高斯金字塔层的低分辨率残差,即 h_K=I_K。利用反向传播重构拉普拉斯金字塔系数 [h_1,…,h_K]

它以h_K=I_K开始,重建的图像为I = I_o。 换句话说,从最粗糙的级别开始,我们重复上采样并在下一个更精细的级别添加差异图像 h,直到我们回到全分辨率图像为止。

LAPGAN

我们提出的方法将条件GAN模型与拉普拉斯金字塔表示相结合。 首先考虑采样程序可以最好地解释该模型。 经过训练(如下所述),我们得到了一组生成卷积模型{G_0,...,G_K},每个模型都捕获了拉普拉斯金字塔不同层上自然图像的系数 h_k 的分布。 对图像进行采样是等式4中重建过程的关键,除了使用生成模型来生成 h_k

循环开始设置 \tilde{I}_{K+1} = 0, 模型的最终层 G_K 使用噪声向量 z_K生成一个残差图像 I_K, I_K = G_K(z_K)。除了最后一层以外,其他层都是条件生成模型,采用上采样后的当前图像 \tilde{I}_{k+1} 和噪声向量 z_k 作为条件变量。图 1 展示了 3层金字塔,用 4 个生成模型构建 64*64 图片 的过程:

我们将噪声样本 z_3(右侧)送入生成模型 G_3 生成 \tilde{I}_3。 对其进行上采样(绿色箭头),然后将其用作下一级 G_2 生成模型的条件变量(橙色箭头)l_2G_2 与另一个噪声样本 z_2一起生成一个差异图像 \tilde{h}_2, 再和 l_2
一起生成 \tilde{I}_2 ,上采样生成 l_1 。然后重复该过程2次。

产生式模型 {G_0,...,G_K} 在图像金字塔的每一层都用 CGAN 的方法进行训练。特别的,我们对每一个训练图像 I,构建一个 Laplacian Pyramid。在每一层,我们随机挑选:
  (i) 从 Eq. (3) 采用标准的步骤,构建系数 h_k ,或者 (ii) 用 G_k 产生他们:

请注意,G_k 是一个卷积网络,它使用粗尺度图像 l_k = u(I_{k + 1}) 和噪声矢量 z_k作为输入低分辨率图像 l_k 在第一个卷积层之前显式添加到 h_k\tilde{h}_k)和 h_k\tilde{h}_k 一起作为 D_k 的输入, D_k 预测图像是真实的还是生成的。 在金字塔的最终尺度上,低分辨率残差足够小,可以直接用标准GAN建模\tilde{h}_K = G_K(z_K),而 D_k 仅以 h_k\tilde{h}_k 作为输入,其框架如图2所示。

图2

该图描述了LAPGAN的训练过程。从训练集中的 64x64 输入图像 I 开始(左上方):(i)取I_0 = I,并对其进行模糊处理和降采样2倍(红色箭头)以生成I_1;(ii)将 I_1 上采样 2 倍(绿色箭头),给出 I_0 的低分辨率 l_0 ; (iii)以相同的概率,我们使用 I_0 为判别模型 D_0 创建实数示例或生成的示例。在实数情况下(蓝色箭头),我们计算输入到 D_0 的高分辨率 h_0 = I_0-l_0,计算出它是实数还是生成数的概率。在生成的情况下(洋红色箭头),生成网络 G_0接收随机噪声矢量 z_0l_0 作为输入。它输出生成的高分辨率图像 \tilde{h}_0 = G_0(z_0,l_0),并将其输入到 D_0。在实际/生成的情况下, D_0还接收到l_0(橙色箭头)。因此,对等式2,G_0进行优化可以学习生成与低分辨率图像 l_0一致的逼真的高频结\tilde{h}_0。在第3级,I_3是 8×8 图像,足够简单,可以直接用标准GAN G_3D_3 建模。

图中的 I_0是 64*64 的图像,一共使用了3个GAN,I_1为32×32,I_2 为16×16,I_3 为8×8。
拉普拉斯金字塔的顶端(也就是像素最低的图像)用来训练普通的GAN ,生成器的输入只有噪声。而后像素更高的图像用来训练CGAN,输入的不光有噪声,还有同级的高斯金字塔的图像经过上采样后得到的图像。

在图中的每一层都可以看作是一个单独训练的cGAN,其中每个网络的条件数据是根据真实图片经过上采样和下采样后的模糊图片。好处是很难产生“记忆”来训练数据,避免重复输出训练集中图片的问题。

LAPGAN的优点:

①与Residual Network有异曲同工之妙,针对残差的逼近和学习相对容易。
②逐级独立训练提高了网络简单记忆输入样本的难度,许多高性能的深度网络都面临着这样的问题。
③减少了每一次 GAN 需要学习的内容,也就从而增大了 GAN 的学习能力。

参考链接:
GAN学习笔记(二)——LAPGAN
LAPGAN应用:Deep Generative Image Models using a Laplacian Pyramid of Adversarial Networks

相关文章

网友评论

      本文标题:LAP GAN 翻译

      本文链接:https://www.haomeiwen.com/subject/eiptuktx.html