1. 前言
这是CVPR2017的文章。
2. 介绍
在这篇论文中,作者提出了Disentangled Representation GAN(DR-GAN)。如下图:
![](https://img.haomeiwen.com/i13613701/53ef249d1ebb4287.png)
如下图是之前的GAN和作者提出的DR-GAN的对比图:
![](https://img.haomeiwen.com/i13613701/309e3019cd8afa36.png)
传统的GAN如图中的(a)所示,G的输入是一个随机向量,产生一个合成的图片。
作者提出了如图中(d)所示,使用一个encoder-decoder结构作为
![](https://img.haomeiwen.com/i13613701/21bfd0768219225d.png)
也就是说
![](https://img.haomeiwen.com/i13613701/8cd0a447dc20cc6a.png)
3.2 Single-Image DR-GAN
Single-Image DR-GAN和传统的GAN有两处明显的区别
- 一是它使用一个encoder-decoder结构作为generator来学习人脸图片的identity representation。这个表示就是一个人脸的等价的特征表示,它是encoder的输出,decoder的输入。
- 二是在人脸识别中,可能存在一些别的特征,例如不同姿态的人脸,因此这个特征可能包含了这些信息。为了应对这种情况,除了将id作为label,还将姿态,亮度等信息作为label。
根据前面所描述的,我们可以对问题进行表述:
给定一张人脸图片:和它的label:
,前者为id,后者为姿态。我们的目标是:1.学习一个姿态无关的人脸特征表示,2.合成一张相同id但是不同姿态的人脸图片。并且,这里的
是一个多目标的CNN网络,也就是它包含了两个部分:
。
也就是说,给定输入人脸图片,
会产生它的id和姿态,给定一个生成人脸
,
会努力预测它为假。如下式:
![](https://img.haomeiwen.com/i13613701/9ca5c74717febe12.png)
与此同时,包含了一个encoder, 一个decoder。encoder产生一个输入人脸图片的特征表示:
,decoder输出生成的人脸图片:
,其中
是目标姿态,
是噪音。如下式:
![](https://img.haomeiwen.com/i13613701/1dcb9a9219fb8e33.png)
![](https://img.haomeiwen.com/i13613701/f0f0abc1e719fa9b.png)
![](https://img.haomeiwen.com/i13613701/0eacfe476d6d0bf8.png)
需要注意的是,所有的共享一组参数。
网友评论