论文学习：Viewpoint-aware Attentive M

作者: _xuyue | 来源:发表于2018-06-30 22:11 被阅读0次

论文学习：Viewpoint-aware Attentive M
论文阅读：GBDT能否被深度学习取代——TabNet
目标检测中的上下文信息
A Structured Self-attentive Sent
【代码解析】Transformer-XL 之 Relative
Neural-Attentive-Session-Based-R
推荐系统遇上深度学习(三十三)--Neural Attentiv
论文-A Self-Attentive Model with G
论文调研--NAIS -TKDE2018
论文-Global-Locally Self-Attentive

整体框架

本文主要有三个贡献点：

通过视角感知(viewpoint-aware)的注意力模型，获取多个视角的注意力映射(attention map)
通过GANs机制，通过单视角特征和注意力映射生成多视角特征
设计一种度量方式，拉近同id的图片之间的空间距离，推远不同id的图片之间的空间距离

整体框架图如下所示：

整体框架

本文简要介绍注意力模型(attention model) 和多视角生成网络(multi-view generative network)

Viewpoint-aware attention model Mechanism

本文采用注意力模型，将网络模型的注意力集中到图片所含视角和目标视角的“交集”。

注意力模型

Attention map（即一个用来指示注意力区域的mask）由一个上下文向量（context text）产生的，而这个上下文向量在一组标签的弱监督下训练而来，标签共有三个维度，分别表示前、侧、后三个方位。

论文中将输入图像划分成N个区域， $\{u_1, u_2, \dots, u_N\}$ ，其中 $u_i$ 是256维的向量。

在step t，可以用如下公式得到针对某特定区域的上下文向量

上下文向量

Attention函数的具体公式如下所示。三个参数分别是上一个step的上下文向量、输入图像、和五个中央视点向量(central viewpoint features)中代表所需方向的一个。
注意力权重(attention weights) $\{a_n^t\}_{n=1}^N$ 通过下方第二个公式得到

attention函数

上下文向量的初始化方式如下：

初始化

attention model最终目的是生成其它视角下的feature。输入图片自带视角的特征由分类网络 $F$ 的 $Conv4$ 特征提取，剩下的几个视角则由attention map $\{a_v\}_{v=1}^V$ 做mask运算而来。

疑点：具体实现中，是如何将256维的 $c^t$ 和3维的标签关联起来计算loss的？通过将 $c^t$ 连接一个输出为3维的全连接层来预测概率？

Adversarial Multi-view Feature Learning

文中从GANs的思路中受到启发，用生成/对抗的方式将单视角的特征转化为多视角特征。

文中采用了两个生成器， $G_f$ 的输入是单视角图像的注意力特征(attention feature)，而 $G_r$ 的输入是和 $G_f$ 同一ID的、不同视角的真实图片的特征。
生成器 $G_f$ 的目标不是令判别器的输出最大化，而是令单视角数据在判别器 $D$ 第四层的特征具有和多视角数据的同一层特征具有相同的统计分布。（这一点从下图中的loss计算公式中可以看出）

Rather than maximizing the out- put of the discriminator for generated data, the objective of feature matching is employed to optimize Gf to match the statistics of features in an intermediate layer of D.

loss公式如下所示：