本文主要讲的是用GAN来对照片进行增强,主要有以下的三个创新点:
global U-Net, adaptive WGAN and individual batch normalization
他的实验主要分为三大部分,1只通过生成器训练,2one-way的gan训练,3two-way的gan训练,这三个部分分别在文章的第4,5,6节讲解了。
先讲一下one-way和two-way的区别,如下图:
two way gan和one-way gan:two way :CycleGAN [26], DualGAN [24] and DISCOGAN [14].
one-way and two-way gan
one-way就是只有一个从x-y的生成过程,2-way是既有x-y的生成,还有y-x的生成,就可以有x-y-x这个过程,所以也就有y-x-y的过程。
数据集:
MIT-Adobe 5K,包含5000张图和它们被5个资深摄影师修过后的图,本文选用的是第三个人修的图,因为效果最好。
数据集的分配:第一个2250张图和他们的修后图用来作为第四部分(监督状态下)的训练集,第2个2250张图用来训练第5,6节的不配对的网络,这里2250张修后的图作为目标域,之前的2250张原图作为原域,这样就没有重合的图了;最后的500张最为4,5,6节的测试集。
网络架构
4.生成器
这节只用了生成器,就是上图网络架构的a部分,如数据集中的数据分配所说的,这里是监督的训练,就是每一张输入都有一个gt的输出,所以只用生成器就行了。
这里的网络用的是U-NET,但是做了修改,也是文章的一个主要创新点,如图中黄色的所示,在第5层卷积的时候,将32x32x128变为16x16x128再缩为8x8,最后变成1x1x128,得到所谓的全局特征,将他每个通道内复制成一样的变回32x32x128,再拼到原本的下一层,这样就完成了全局特征的加入。这个结构在另外两部分中也这样使用
这里的损失函数是
就是让生成的图片和人为修改的图越接近越好。
作者将这个网络和DPED 10 8RESBLK [26, 17]; (3) FCN [6]: (4) CRN ; (5) U-Net [20].这几个比较,说明他的更好。
5. One-way GAN
这里就是一般的gan的训练流程,损失函数除了对抗损失,还要加入就是要让x和他的生成图像y'要尽量一样,保持原有的图片样子。
文中这里主要讨论了多种gan的优劣,和超参数alpha(identity loss的权重),G/D的训练次数比例的影响
这里提出了一个Adaptive WGAN,用来弥补一般WGAN的缺陷。
6. Two-way GAN
two-way gan一般分两部分a forward mapping (X→Y) 和 a backward mapping (Y→X).,前向包括后向包括:
以前的文章中Gx和G'x是共享参数的,Gy和G'y也是,因为他们都是从源域到目标域,或者反过来,本文提出这样不好,因为G'的输入是生成的图像,所以就引入iBN(独立bn),就是连个网络的其他参数共享,bn分开算。最后效果得到提升。
这里的损失函数:
identity loss
要求生成的图像要和原图比较像
cycle consistency loss
要求x和x''要一样,能变回来
对抗损失
惩罚项
训练判别器的时候的惩罚项
训练判别器
训练判别器的时候就和C和I没什么关系了
训练生成器
训练生成器时要考虑C和I
以上是个人阅读论文笔记,如有错误,希望大家批评指正,谢谢
网友评论