美文网首页
GAN - 生成对抗网络

GAN - 生成对抗网络

作者: ninedreams | 来源:发表于2019-10-12 23:04 被阅读0次

    简介

    GAN的基本原理其实非常简单,这里以生成图片为例进行说明。假设我们有两个网络,G(Generator)和D(Discriminator)。正如名字那样,生成网络负责生成,辨别网络负责分辨生成的质量,然后不断的生成与辨别,最后达到效果。GAN第一篇要看的paper当然是Ian Goodfellow大牛的Generative Adversarial Networks(arxiv:https://arxiv.org/abs/1406.2661),这篇paper算是这个领域的开山之作。当然GAN是谁最新发明的我们不做争论。

    生成与对抗

    GAN在训练过程中,生成网络G的目标就是尽量生成真实的图片去欺骗判别网络D。而D的目标就是尽量把G生成的图片和真实的图片分别开来。这样,G和D构成了一个动态的“博弈过程”。
    最后博弈的结果是什么?以图片为例,在最理想的状态下,G可以生成足以“以假乱真”的图片G(z)。对于D来说,它难以判定G生成的图片究竟是不是真实的,因此D(G(z)) = 0.5。但是实际训练的时候这个状态一般是不可达的。上面的过程使用数学公式来表达:


    分析这个公式:

    1. 整个式子由两项构成。x表示真实输入,z表示输入G网络的噪声,而G(z)表示G网络生成
    2. D(x)表示D网络判断真实图片是否真实的概率(因为x就是真实的,所以对于D来说,这个值越接近1越好)。而D(G(z))是D网络判断G生成的图片的是否真实的概率
    3. G的目的:上面提到过,D(G(z))是D网络判断G生成的图片是否真实的概率,G应该希望自己生成的图片“越接近真实越好”。也就是说,G希望D(G(z))尽可能得大,这时V(D, G)会变小。因此我们看到式子的最前面的记号是min_G(G在min的下面)
    4. D的目的:D的能力越强,D(x)应该越大,D(G(x))应该越小。这时V(D,G)会变大。因此式子对于D来说是求最大max_D(D在max的下面)

    上面的过程使用图来描述:


    如何训练GAN

    首先看论文给出的方法:


    尤其注意红方框的标注,我们分为两步:

    1. 首先训练D,D是希望V(G, D)越大越好,所以是加上梯度(ascending)
    2. 然后训练G时,V(G, D)越小越好,所以是减去梯度(descending),整个训练过程交替进行

    损失函数

    这点有些许不同,以往的深度神经网络都是一个损失函数。但是GAN是类似于encoder-decoder模型,生成网络一个损失函数,对抗网络一个损失函数。这两个损失函数可以是一样的,也可以分别定义成不同的函数。但是这两个函数在训练的时候会有一些问题:

    在训练的初期,G 想要骗过 D,变化十分的缓慢,而上面的函数,趋势和下面的是一样的,都是递减的。但是它的优势是在 D(x) 接近 0 的时候,梯度很大,有利于训练,在 D(x) 越来越大之后,梯度减小,这也很符合实际,在初期应该训练速度更快,到后期速度减慢。于是优化修改的损失函数:

    可以提高训练速度。在实际中还可以开始的学习率较高,训练进行中,逐步减少学习率。

    CNN与GAN的结合

    在图像领域我们知道CNN是最好的深度模型,所以早早的就有人做了尝试,如:DCGAN是这方面最好的尝试之一(论文地址:[1511.06434] Unsupervised Representation Learning with Deep Convolutional Generative Adversarial Networks

    DCGAN的基本原理和GAN是一样的,它只是把上述的G和D换成了两个卷积神经网络(CNN)。但不是直接换就可以了,DCGAN对卷积神经网络的结构做了一些改变,以提高样本的质量和收敛的速度,这些改变有:

    1. 取消所有pooling层。G网络中使用转置卷积(transposed convolutional layer)进行上采样,D网络中用加入stride的卷积代替pooling
    2. 在D和G中均使用batch normalization
    3. 去掉FC层,使网络变为全卷积网络
    4. G网络中使用ReLU作为激活函数,最后一层使用tanh
    5. D网络中使用LeakyReLU作为激活函数

    至于为什么是这些改变,可以自己动手做一下实验,看看效果,或许自己做的实验改变的地方比论文还要好。而且现在的GAN网络在随机噪声输入方面,使用先验的图片,当然这也是跟GAN的任务有关。如果任务是一种风格的图片到另外一种图片的生成,那么预先的输入就不是随机噪声,而是预先的风格图片。

    优秀的GAN网络

    目前在图像领域有几个我关注比较优秀的GAN项目如下:

    • CycleGAN
      CycleGAN可谓是大名鼎鼎,风靡一时。项目:https://github.com/junyanz/pytorch-CycleGAN-and-pix2pix
      CycleGAN是非结对的训练,训练集分为两个集合,A和B训练过程可以是A->B,也可以是B->A。不论哪一种,结果都是可以互转的。例如A集合可以是线条的猫图画,B集合是实物猫的图片,那么训练完成之后,就可以将手绘的猫图片转成真实的猫图片。

    • StyleGAN
      项目:https://github.com/NVlabs/stylegan
      StyleGAN是一种图像生成器,取决于你的输入。然后可以在生成的lacent space上修改向量方向,最后达到编辑图片的效果。可以编辑图片的嘴部笑、年龄、性别等等。

    • pix2pixHD
      项目:https://github.com/NVIDIA/pix2pixHD
      pix2pixHD是pix2pix改进超级加强版,有些效果与CycleGAN相似。但是pix2pixHD是结对训练的,必须要一一对应的数据。pix2pixHD的代码结构与CycleGAN的代码都是相似的。其实在CycleGAN中就有pix2pix模型的训练代码,可以说他们是出自一波人之手。CycleGAN的作者Jun-Yan Zhu也是pix2pixpix2pixHD的核心参与者。

    GAN论文与代码实现

    相关文章

      网友评论

          本文标题:GAN - 生成对抗网络

          本文链接:https://www.haomeiwen.com/subject/itbdjctx.html