美文网首页
深度学习GAN

深度学习GAN

作者: fanstastic | 来源:发表于2022-08-23 16:45 被阅读0次

    GAN基本原理

    image.png
    • 生成器(Generator):通过机器生成数据(大部分情况下是图像),目的是“骗过”判别器
    • 判别器(Discriminator):判断这张图像是真实的还是机器生成的,目的是找出生成器做的“假数据”

    下面介绍一下基本思想及其过程:

    一、第一阶段:

    1、第一阶段:固定「判别器D」,训练「生成器G」
    2、我们使用一个判别器,让一个「生成器G」不断生成“假数据”,然后给这个「判别器D」去判断。
    3、一开始,「生成器G」还很弱,所以很容易被「判别器D」识别。
    4、但是随着不断的训练,「生成器G」技能不断提升,最终骗过了「判别器D」。

    一、第二阶段:

    1、固定「生成器G」,训练「判别器D」
    2、当通过了第一阶段,继续训练「生成器G」就没有意义了。这个时候我们固定「生成器G」,然后开始训练「判别器D」。
    3、「判别器D」通过不断训练,提高了自己的鉴别能力,最终他可以准确的判断出所有的假图片。
    4、到了这个时候,「生成器G」已经无法骗过「判别器D」。

    三、第三阶段

    1、循环阶段一和阶段二
    2、通过不断的循环,「生成器G」和「判别器D」的能力都越来越强。
    3、最终我们得到了一个效果非常好的「生成器G」,我们就可以用它来生成我们想要的图片了。

    GAN的缺点

    1. 训练不稳定,不容易收敛,其结果并不是恒定,而是一个在其周围振荡的过程,不够稳定。这一点使用paddleGan进行过验证,在一个线性函数中,即便使用相同的数据,每次生成的结果都不一致,结果会在一个大概值附近上下波动,输入的数据量越大波动率越小。
    2. 在视频合成应用场景中,视频生成质量不高。

    paddleGAN

    介绍

    PaddleGAN图像生成模型库覆盖当前主流的GAN算法,可简单上手各类GAN任务

    实践基于paddleGAN扩展发现的问题

    • 功能包括图像唇语合成,视频图像合成
    • 实现方式是图片加语音合成,经过测试有三个问题。问题一是无法实时输入语音,导出视频流,只能合成一段完整视频导出,这个问题在github提过issue,暂时是技术上还未实现。问题二是生成的视频如果是高分辨率视频,在嘴唇周边会有明显的长方形合成痕迹,低分辨率看起来比较自然,这个问题在网上的案例包括官方的demo都会出现。问题三是在使用普通开发机的条件下,从数据输入模型到生成视频时间较长,在使用10s的语音大概需要10几秒才能合成一段视频

    相关文章

      网友评论

          本文标题:深度学习GAN

          本文链接:https://www.haomeiwen.com/subject/cumwgrtx.html