【论文】:ICML 2016 Generative Adversarial Text to Image Synthesis
https://arxiv.org/pdf/1605.05396.pdf
【作者torch实现】:https://github.com/reedscot/icml2016
【Tensorflow实现】:https://github.com/zsdonghao/text-to-image
《Generative Adversarial Text to Image Synthesis》阅读笔记
论文简译:
【1、简介】
这篇论文研究通过视觉性描述文本合成图片。
传统方法用属性表示(用向量编码来区分对象类别)来描述对象的详细视觉信息。与传统方法相比,自然语言具有更普适和灵活的描述能力。
文本领域的深度卷积网络和循环神经网络具有强大的判别和生成能力。
文章目的在于学习从文字到图片的映射。这个问题有两个难点:1、要学习能够抓住关键视觉细节的文本特征表达。2、使用这些特征去合成逼真单独图片。幸运的是,深度学习能够将复杂的问题分成两个子问题:自然语言表达和图像合成。
然而,深度学习不能解决的一个问题是:文字描述所限制的图像的分布是多峰(多模态)的,这意味着会有许多像素排列能够满足文字描述。反方向的问题,从图像生成文字也受此影响,但是通过根据链式法则分解文本序列使之变得可行。一个定义的更好的问题是通过给定图像和前面的文本预测后面的词。
因此这种条件多模态是GAN的一种很自然的应用。
本论文的主要贡献是提出了一种简单有效的GAN架构和训练策略用于从人类文本描述合成鸟和花的图片。
【2、相关工作】
多模态学习的关键挑战包括学习跨模态的公共表示,和基于一个模态预测另一个模态的缺失数据。Ngiam et al. (2011)训练了一个stacked 多模态自编码器在音视频信号领域,并且能够学习模态无关的公共表示。Srivastava & Salakhutdinov(2012) 提出了一个深度玻尔兹曼机并且联合建模图片和文本标签。. Sohn et al. (2014)提出了一个条件多模态预测框架以及理论支持。
未完待续
网友评论