文章提出了两阶段的对抗生成网络,第一阶段是根据文字生成草图和大致颜色,第二部分根据第一部分的结果和文本描述作为输入生成有照片真是细节的高分辨率的图像。
StackGan是基于CGAN的,类别与之前的reed64*64的生成结果却是不错的,而且论文中有两个亮点:
1. 首先,StackGan 没有采用直接优化生成高清图,而是利用了CGAN的条件输入,我们把第一步生成的结果,作为条件Gan的辅助输入,这样必然能够生成较好结果。
2.没有直接利用文本描述作为网络的输入,而是对文本加入正态扰动,最终实验证明了随机扰动是生成较多样化的背景。
在做实验的时候发现,分辨率变大,训练难度也增加了,时间变长很多,感觉这个第二部训练大概十个小时就做了60个epoch。
缺点呢,由于没有像reeds做的增加文字是否匹配图片的匹配对,所以会出现图文不符的情况。
网友评论