这是 ICCV 2019 上面的文章
Abstract
卷积网络已成为许多计算机视觉应用程序中选择的范例。但是卷积网络有一个显著缺点,只能对领域进行计算,会错失全局信息。另一方面,自我注意已成为捕获远程交互的最新进展,但主要用于序列建模和生成建模任务。
在本文中,考虑将自注意力用于区分性视觉任务,作为卷积的替代方法。介绍了一种新颖的二维相对自我关注机制,该机制证明了在取代卷积作为图像分类的独立计算基元方面具有竞争力。
因此,提出通过将卷积特征图与通过自我注意产生的一组特征图进行级联,以利用这种自我注意机制来增强卷积算子。
1. Introduction
卷积神经网络在许多计算机视觉应用中都取得了巨大的成功,特别是在图像分类中。
卷积层的设计:
- 通过有限的接收场实现局部性;
- 通过权重共享实现变换等方差。
在设计对图像进行操作的模型时,这两个属性均被证明是至关重要的感应偏差。但是,卷积核的局部性质阻止了它捕获图像中的全局上下文,这对于更好地识别图像中的对象通常是必需的。
另一方面,自注意力作为捕捉远程相互作用的最新进展而出现,但主要用于序列建模和生成建模任务。自我注意背后的关键思想是产生根据隐藏单位计算得出的值的加权平均值。
与池化或卷积运算符不同,加权平均运算中使用的权重是通过隐藏单元之间的相似度函数动态生成的。 作为结果,输入信号之间的相互作用取决于信号本身,而不是像卷积一样由它们的相对位置预先确定。这使得自注意力能够捕获远程相互作用而不需要增加参数。
Figure 2通过自我注意力来增强卷积。这是通过将关注局部性的卷积特征图与能够建模更长距离依赖项的自注意特征图进行级联来实现的(如 Figure 2所示)
2. Related Work
2.1 Convolution networks
2.2 Attention mechanisms in networks
文章的注意力增强网络不依赖于其完全卷积的对应对象的预训练,而是在整个体系结构中采用自我注意力。
使用多头注意力可以使模型共同参与
到空间和特征子空间。
此外,通过将相对自注意力扩展到二维输入,增强了自注意力对图像的表示能力,从而使我们能够以有原则的方式对翻译等方差进行建模。
最终,文章的方法产生了附加的特征图,而不是通过加法或门控来重新校准卷积特征。
此属性使得可以灵活地调整注意力通道的比例,并考虑从完全卷积到完全注意力模型的一系列架构。
3. Methods
使用如下记号:
指的是激活图的输入过滤器的高度,宽度和数量。
指的是在多头注意力里头的数目,values的深度,keys的深度。
进一步假设将和平均除
表示和每个关注头的值和查询/键的深度
3.1. Self-attention over images
给定输入张量的形状,把这个张量张开为矩阵,接着使用Transformer architecture的多头注意力机制。
单头的自注意力的输入是
公式 1其中可学习的变换,并且,queries ,values
所有头的输出被连起来并且再做一次投影为:
公式 2其中,可学习的线性变换
MHA()把输入的形状变为或者匹配原始的空间维度
3.1.3 Two-dimensional Positional Encodings
如果没有关于位置的明确信息,则自我注意是排列等变的:
image.png
对于像素位置的任何排列,它对于建模诸如图像的高度结构化数据均无效。已经提出了使用显式空间信息来增强激活图的多个位置编码以缓解相关问题。但是这些编码没有对作者在图像分类以及目标检测方面的实验有任何帮助。
作责假设这是因为这样的位置编码不是置换等变,但不满足翻译等变,这在处理图像时是理想的特性。作为一种解决方案,我们建议将相对位置编码的使用扩展到二维,并提出基于Music Transformer的内存高效实现。
- Relative positional encodings
通过独立添加相对高度信息和相对宽度信息来实现二维相对自我注意。
像素对像素的注意力计算方式为:
公式 3其中是像素的query向量(的第行),是像素的key向量(的第行),,是相对宽度,和相对高度的学习嵌入。
头的输出变成:
公式 4其中,是沿高度和宽度尺寸的相对位置的矩阵,其满足
,
由于分别考虑相对高度和宽度信息,满足,
这样就不必计算所有对。
3.2 Attention Augmented Convolution
1)使用一种可以共同参与空间子空间和特征子空间的注意力机制(每个头部对应一个特征子空间)
2)引入其他特征图,而不是对其进行提炼。
- Concatenating convolutional and attentional feature maps
考虑到核的大小,输入过滤器以及输出过滤器,这个注意力增强卷积能够被写作:
image.png文章标记为注意通道与原始输出过滤器数量的比率,为key的深度与原始输出过滤器的数量。
与卷积类似,提出的的注意力增强卷积:
1)与平移等价,
2)可以轻松地在不同空间维度的输入上进行操作。
参考资料:Attention Augmented Convolutional Networks
网友评论