1. Text to Image
traditional supervised approach传统的监督学习产生image会带来图片模糊的问题, 因为你给他Text:"train", 给它的是一堆形态完全不同的火车图片, 它学出来的就是这些图像的平均
conditional GANconditional gan的任务变成了两个, 一个是判断生成的图像是否是realistic, 还有一个是给的c(description)和x(生成的图像)是否能够match起来, 就是不止说D要给生成的图像低分, 并且如果c和x对应不上, 就是指鹿为马的情况, 也要给低分
conditional GAN training schemetraining conditional GAN和普通GAN的区别在于不只是G产生的图要给低分, 图是real的, 但是是和C不能匹配的也要给低分
Conditional GAN Discriminator将Discriminator分成了两个Network来训练, 就是用两个Discriminator来训练两种错误(图片不像realistic & 图片和描述不匹配)
Stack GANStack GAN的思路是先产生小张图, 然后根据这些小张图再产生大张图
Image to Image Gan Traditional supervised approach还是一样的问题, 如果用传统方法就是要pixel和pixel的距离尽量近, 那产生的图片也是比较模糊的, 这个问题在SR的应用上应该也是同样的问题, 就是用l1/l2 loss train出来的图像会比较blurry
image to image GAN schemeGAN的问题是它会产生一些原来没有的奇怪的东西, 比如下面"GAN"那张图上左上角的那个不知道是烟囱还是窗户的东西, 所以在loss里面还会包括l1 loss的部分, 希望Generate图像在大局之外, 从pixel的角度也接近target
patch GAN只让discriminator检查图像的一小部分patch, 如果要检查整张图像, D的参数量需要比较大, 很容易就over-fitting, 不好训练
Conditional GAN for Speech Enhance那其实图像的Noise reduction用GAN来做的话也是同样的方法, 我有个疑问, 为什么SR/deBlur的两个GAN里, 没有看到D有这个判断是否是fake pair的作用, 就是为什么D不用判断我生成的fake图像是否和noise图像是pair的, 只用判断我生成的fake图像是否是fake图像
Conditional GAN for Video Generation这个思路实际上就可以用来做MEMC
网友评论