美文网首页
FD-GAN: Pose-guided Feature Dist

FD-GAN: Pose-guided Feature Dist

作者: 地球上的某某某 | 来源:发表于2018-11-03 10:41 被阅读0次

 github:https://github.com/yxgeee/FD-GAN  pytorch

abstract:
问题:姿态变化

常用办法:human alignment ;learn human-region-based representation

缺点:需要额外计算姿态信息

本文:提出Feature Distilling(蒸馏) Generative Adversarial Network,学到的特征是identity-related且pose-unrelated。

2 related work:

[18]中提出了PG^2以合成任意姿势的人物图像

3 Feature Distilling Generative Adversarial Network

FD-GAN采用了双胞胎网络,包括一个图片编码器E,一个图片生成器G,一个ID 判别器 D_{id},一个姿态判别器D_{pd}。对于网络的每一个分支,输入是一个行人图片+一个目标姿态landmark map。图片编码器将图片准成特征。identity verification 分类器指导特征的生成。然鹅,只使用identity verification 分类器会使编码器不仅编码了行人ID信息,还编码了行人姿态信息,导致学到的特征对于姿态比较敏感。为了使其对姿态具有鲁棒性,我们增加了一个图片生成器G,它以编码器的特征和目标姿势图为条件。我们的假设是,如果学到的特征是Pose-related和identity-related,就可以用来生成同一个不同姿态的图片。身份判别器D_{id}和姿态判别器D_{pd}集成在一起以规范图像生成过程。它们都是conditional  discriminator,即只判别fake or true,而不是判别到底是哪个人或者哪个姿态。网络促使图像生成器与图像编码器一起用伪造的图像欺骗鉴别器。本文还利用双胞胎结构来最小化两个分支的假图像之间的差异,提出了相同姿势损失 same-pose loss,进一步从输入图像中提取与姿势无关的信息。inference时,只使用图片编码器得到特征,不再使用额外的姿态信息。

3.1 Image encoder and image generator

E和G的结构如Fig3.(a)所示。输入图片,E使用resnet-50作为骨干网络将其编码成2048维的特征向量。将特征向量和目标姿态图送入G,生成此人在目标姿态下的图片。目标姿态图是一个18通道的map,每个通道表示一个姿态点的位置,可将其转为类似高斯的热图。通过一个5-block Convolution-BN-ReLU的子网络将其编码成一个128维的姿态特征向量。视觉特征、目标姿态特征、额外的256维度的噪声向量(从标准高斯分布采样得到)被拼接在一起,输入一系列的5 convolution-BN-dropout-ReLU upsampling blocks,得到生成图片。

3.2 Identity verification classifier

设输入两张图片的特征为x_1,x_2d(x_1,x_2)表示网络输出的置信度,loss为二元交叉熵损失:

其中C是ground truth,C=1表示是同一个人。

3.3 Image generation with identity and pose discriminators

Identity discriminator D_{id}是用来判断是否生成的图片跟输入图片是相同的人。图片生成器想要欺骗身份判别器来确保视觉特征包含足够的identity-related 信息。身份判别器跟身份分类器的结构是相似的Fig3.(c)。但是它的resnet-50网络跟E中的resnet-50网络不共享参数,因为D_{id}的目的是区分real/fake,而E的目的是学到姿态无关的特征。它俩之间具有domain gap。设输入图片为x_k,生成图片为y_ky_k表示与输入图像具有相同身份的另一姿态的真实图像,D_i的对抗损失为:

其中\mathcal Y,\mathcal Z分别表示真实的数据分布和生成数据分布。

Pose discriminator 


D_{pd}区分生成图片y_k是否跟目标姿态p匹配,如Fig3.(d)所示。它使用了PatchGAN的结构。输入图片和姿态图首先在通道维度拼接在一起,然后经过4 convolution-ReLU blocks 和 一个 sigmoid函数来得到一个0到1之间的姿态匹配map。此map中的每个位置表示输入图片和每个Landmark的匹配度。图片生成器G尝试欺骗姿态判别器D_{pd}D_{pd}的对抗损失为:

然鹅我们观察到,姿态判别器可能会过拟合姿态信息,即它会记住特定姿态以及行人外观之间的相关性,因为每个图片的姿态通常是独特的。比如,if we use a blue-top person’s pose as the target pose, the generated image of a red-top person might end up having blue top.为了解决这个问题,我们提出了一种pose map augmentation scheme。训练时,对每个landmark,它的一通道Gaussian-like heat-map是在某个特定范围内的随机高斯带宽获得的。通过这种方式,我们可以为相同的姿势创建许多姿势贴图,并缓解姿势过度拟合问题。

Reconstruction loss.

G不仅是用来迷惑判别器的,也是为了生成图片。然而只使用判别器无法确保生成human-perceivable(可感知的) images。因此使用一个重构误差来最小化生成的图片y_k与真实图片的L1之差,

[18] Ma, L., Jia, X., Sun, Q., Schiele, B., Tuytelaars, T., Van Gool, L.: Pose guided person image generation. In: NIPS. (2017) 405–415

相关文章

网友评论

      本文标题:FD-GAN: Pose-guided Feature Dist

      本文链接:https://www.haomeiwen.com/subject/jamntqtx.html