GAN基本原理

image.png

生成器(Generator)：通过机器生成数据（大部分情况下是图像），目的是“骗过”判别器
判别器(Discriminator)：判断这张图像是真实的还是机器生成的，目的是找出生成器做的“假数据”

下面介绍一下基本思想及其过程：

一、第一阶段：

1、第一阶段：固定「判别器D」，训练「生成器G」
2、我们使用一个判别器，让一个「生成器G」不断生成“假数据”，然后给这个「判别器D」去判断。
3、一开始，「生成器G」还很弱，所以很容易被「判别器D」识别。
4、但是随着不断的训练，「生成器G」技能不断提升，最终骗过了「判别器D」。

一、第二阶段：

1、固定「生成器G」，训练「判别器D」
2、当通过了第一阶段，继续训练「生成器G」就没有意义了。这个时候我们固定「生成器G」，然后开始训练「判别器D」。
3、「判别器D」通过不断训练，提高了自己的鉴别能力，最终他可以准确的判断出所有的假图片。
4、到了这个时候，「生成器G」已经无法骗过「判别器D」。

三、第三阶段

1、循环阶段一和阶段二
2、通过不断的循环，「生成器G」和「判别器D」的能力都越来越强。
3、最终我们得到了一个效果非常好的「生成器G」，我们就可以用它来生成我们想要的图片了。

GAN的缺点

训练不稳定，不容易收敛，其结果并不是恒定，而是一个在其周围振荡的过程，不够稳定。这一点使用paddleGan进行过验证，在一个线性函数中，即便使用相同的数据，每次生成的结果都不一致，结果会在一个大概值附近上下波动，输入的数据量越大波动率越小。
在视频合成应用场景中，视频生成质量不高。

paddleGAN

介绍

PaddleGAN图像生成模型库覆盖当前主流的GAN算法，可简单上手各类GAN任务

实践基于paddleGAN扩展发现的问题

功能包括图像唇语合成，视频图像合成
实现方式是图片加语音合成，经过测试有三个问题。问题一是无法实时输入语音，导出视频流，只能合成一段完整视频导出，这个问题在github提过issue，暂时是技术上还未实现。问题二是生成的视频如果是高分辨率视频，在嘴唇周边会有明显的长方形合成痕迹，低分辨率看起来比较自然，这个问题在网上的案例包括官方的demo都会出现。问题三是在使用普通开发机的条件下，从数据输入模型到生成视频时间较长，在使用10s的语音大概需要10几秒才能合成一段视频