为了解决文字描述中含有多个目标的问题,本文提出了一个利用对话提供更多的额外信息。因为通常一个文本描述是不能够捕获图片中所有的细节信息而且模型也不能够知道图像中的目标对应了描述中的哪一个单词。
![](https://img.haomeiwen.com/i5193446/70b4fa250024fe8b.png)
从数据集分析,flower 或者 cub的描述通常只是对单一目标进行详细描述,这样但前的几个任务生成的效果是很好的, 但是,在COCO数据集中,由于存在多个目标,而且在一个描述中不包含所有目标的前景背景的细节描述。
![](https://img.haomeiwen.com/i5193446/2b2ec41377a8600e.png)
具体操作
提供一个对话接口,一个提问者,这能看到文本描述,一个回答者,有文本和图像。可以用到任何生成模型上。感觉实质上是丰富了文本描述从而得到更多细节的图像信息。
本篇论文将对话接口直接用于stackGan中,贡献点略少。
可尝试用于之后自己的生成模型中
在stageI 和stage II中都加入了这个额外的描述
![](https://img.haomeiwen.com/i5193446/114648dc844ad44b.png)
结果如图
![](https://img.haomeiwen.com/i5193446/c3dbc1cf36ef8269.png)
![](https://img.haomeiwen.com/i5193446/e32bb25bcd01566f.png)
文字预测语义布局来生成图片链接(https://www.jianshu.com/p/e374182606c5)
网友评论