Attention Augmented Convolutiona

作者: 晨光523152 | 来源:发表于2020-06-20 17:23 被阅读0次

Attention Augmented Convolutiona
AAConv
Attention和增强RNN(Attention and Au
Attention和增强循环神经网络
2018-08-10 CNN-convoutional
IJCAI2018 | SFP软剪枝通道裁剪算法
AlexNet文章复现
《Learning Spatiotemporal Feature
CCN & CNN
caffe自学03

这是 ICCV 2019 上面的文章

Abstract

卷积网络已成为许多计算机视觉应用程序中选择的范例。但是卷积网络有一个显著缺点，只能对领域进行计算，会错失全局信息。另一方面，自我注意已成为捕获远程交互的最新进展，但主要用于序列建模和生成建模任务。

在本文中，考虑将自注意力用于区分性视觉任务，作为卷积的替代方法。介绍了一种新颖的二维相对自我关注机制，该机制证明了在取代卷积作为图像分类的独立计算基元方面具有竞争力。

因此，提出通过将卷积特征图与通过自我注意产生的一组特征图进行级联，以利用这种自我注意机制来增强卷积算子。

1. Introduction

卷积神经网络在许多计算机视觉应用中都取得了巨大的成功，特别是在图像分类中。

卷积层的设计：

通过有限的接收场实现局部性；
通过权重共享实现变换等方差。

在设计对图像进行操作的模型时，这两个属性均被证明是至关重要的感应偏差。但是，卷积核的局部性质阻止了它捕获图像中的全局上下文，这对于更好地识别图像中的对象通常是必需的。

另一方面，自注意力作为捕捉远程相互作用的最新进展而出现，但主要用于序列建模和生成建模任务。自我注意背后的关键思想是产生根据隐藏单位计算得出的值的加权平均值。

与池化或卷积运算符不同，加权平均运算中使用的权重是通过隐藏单元之间的相似度函数动态生成的。作为结果，输入信号之间的相互作用取决于信号本身，而不是像卷积一样由它们的相对位置预先确定。这使得自注意力能够捕获远程相互作用而不需要增加参数。

Figure 2

通过自我注意力来增强卷积。这是通过将关注局部性的卷积特征图与能够建模更长距离依赖项的自注意特征图进行级联来实现的（如 Figure 2所示）

2. Related Work

2.1 Convolution networks

2.2 Attention mechanisms in networks

文章的注意力增强网络不依赖于其完全卷积的对应对象的预训练，而是在整个体系结构中采用自我注意力。

使用多头注意力可以使模型共同参与
到空间和特征子空间。

此外，通过将相对自注意力扩展到二维输入，增强了自注意力对图像的表示能力，从而使我们能够以有原则的方式对翻译等方差进行建模。

最终，文章的方法产生了附加的特征图，而不是通过加法或门控来重新校准卷积特征。

此属性使得可以灵活地调整注意力通道的比例，并考虑从完全卷积到完全注意力模型的一系列架构。

3. Methods

使用如下记号：
$H,W,F_{in}$ 指的是激活图的输入过滤器的高度，宽度和数量。
$N_{h},d_{v},d_{k}$ 指的是在多头注意力里头的数目，values的深度，keys的深度。

进一步假设 $N_{h}$ 将 $d_{v}$ 和 $d_{k}$ 平均除
表示 $d_{v}^{h}$ 和 $d_{k}^{h}$ 每个关注头的值和查询/键的深度

3.1. Self-attention over images

给定输入张量的形状 $(H,W,F_{in})$ ，把这个张量张开为矩阵 $X\in R^{HW\times F_{in}}$ ，接着使用Transformer architecture的多头注意力机制。

单头 $h$ 的自注意力的输入是

公式 1

其中可学习的变换 $W_{q},W_{k}\in R^{F_{in}\times d_{k}^{h}}$ ，并且 $W_{v}\in R^{F_{in}\times d_{v}^{h}}$ ，queries $Q = XW_{q}$ ，values $V=XW_{v}$

所有头的输出被连起来并且再做一次投影为：

公式 2

其中，可学习的线性变换 $W^{O} \in R^{d_{v}\times d_{v}}$
MHA( $X$ )把输入的形状变为 $(H,W,d_{v})$ 或者匹配原始的空间维度

3.1.3 Two-dimensional Positional Encodings

如果没有关于位置的明确信息，则自我注意是排列等变的：

image.png

对于像素位置的任何排列 $\pi$ ，它对于建模诸如图像的高度结构化数据均无效。已经提出了使用显式空间信息来增强激活图的多个位置编码以缓解相关问题。但是这些编码没有对作者在图像分类以及目标检测方面的实验有任何帮助。

作责假设这是因为这样的位置编码不是置换等变，但不满足翻译等变，这在处理图像时是理想的特性。作为一种解决方案，我们建议将相对位置编码的使用扩展到二维，并提出基于Music Transformer的内存高效实现。

Relative positional encodings

通过独立添加相对高度信息和相对宽度信息来实现二维相对自我注意。

像素 $i =(i_{x},i_{y})$ 对像素 $j=(j_{x},j_{y})$ 的注意力计算方式为：

公式 3

其中 $q_{i}$ 是像素 $i$ 的query向量（ $Q$ 的第 $i$ 行）， $k_{j}$ 是像素 $j$ 的key向量（ $K$ 的第 $j$ 行）， $r_{j_{x}-i_{x}}^{W}$ ， $r_{j_{y}-i_{y}}^{H}$ 是相对宽度 $j_{x}-i_{x}$ ，和相对高度 $j_{y}-i_{y}$ 的学习嵌入。

头 $h$ 的输出变成：

公式 4

其中， $S_{H}^{rel},S_{W}^{rel}\in R^{HW\times HW}$ 是沿高度和宽度尺寸的相对位置的矩阵，其满足
$S_{H}^{rel}[i,j]=q_{i}^{T}r_{j_{y}-i_{y}}^{H}$ , $S_{W}^{rel}[i,j]=q_{i}^{T}r_{j_{x}-i_{x}}^{W}$

由于分别考虑相对高度和宽度信息， $S_{H}^{rel},S_{W}^{rel}$ 满足 $S_{W}^{rel}[i,j]=S_{W}^{rel}[i,j+W]$ ,
$S_{H}^{rel}[i,j]=S_{H}^{rel}[i+H,j]$
这样就不必计算所有 $（i，j）$ 对。

3.2 Attention Augmented Convolution

1）使用一种可以共同参与空间子空间和特征子空间的注意力机制（每个头部对应一个特征子空间）
2）引入其他特征图，而不是对其进行提炼。

Concatenating convolutional and attentional feature maps

考虑到核的大小 $k$ ，输入过滤器 $F_{in}$ 以及输出过滤器 $F_{out}$ ，这个注意力增强卷积能够被写作：

image.png

文章标记 $v = \frac{d_{v}}{F_{out}}$ 为注意通道与原始输出过滤器数量的比率， $k = \frac{d_{k}}{F_{out}}$ 为key的深度与原始输出过滤器的数量。
与卷积类似，提出的的注意力增强卷积：
1）与平移等价，
2）可以轻松地在不同空间维度的输入上进行操作。

参考资料：Attention Augmented Convolutional Networks

Attention Augmented Convolutiona
这是 ICCV 2019 上面的文章 Abstract 卷积网络已成为许多计算机视觉应用程序中选择的范例。但是卷积...
AAConv
Attention Augmented Convolutional Networks https://arxiv....
Attention和增强RNN(Attention and Au
译文:Attention and Augmented Recurrent Neural Networks 循环神经...
Attention和增强循环神经网络
Attention and Augmented Recurrent Neural Networks 理解长短期记忆...
2018-08-10 CNN-convoutional
compared to fully-connected neural networks, convolutiona...
IJCAI2018 | SFP软剪枝通道裁剪算法
论文：Soft Filter Pruning for Accelerating Deep Convolutiona...
AlexNet文章复现
AlexNet_v1：ImageNet Classification with Deep Convolutiona...
《Learning Spatiotemporal Feature
论文: Learning Spatiotemporal Features with 3D Convolutiona...
CCN & CNN
CCN - Content Centric Networking 内容中心网络 CNN -Convolutiona...
caffe自学03
卷积神经网络（CNN，Convolutional Neural Network）卷积层（Convolutiona...