这是发在 ICLR 2020 上的文章。
Abstract
将注意力机制整合到视觉中的最新趋势已导致研究人员重新考虑卷积层作为主要构建块的优势。
除了帮助CNN处理远程依赖关系之外,Ramachandran等人表明,注意力可以完全取代卷积,并在视觉任务上达到最先进的性能。
这就提出了一个问题:学习注意力层的运作方式与卷积层的运作方式类似吗?
这项工作提供了证据表明注意力层可以进行卷积,实际上,他们经常在实践中学会这样做。 具体来说,我们证明具有足够数量的头部的多头自我注意层至少具有与任何卷积层相同的表现力。
1. Introduction
受注意力机制学习单词间有意义的相互依存关系能力的启发,研究人员最近考虑在视觉任务中利用自我注意力。 自注意力首先通过使用基于渠道的注意力或整个图像中的非本地关系添加到CNN。
Attention augmented CNNs:用自注意力机制取代一些卷积层,在分类和目标识别得到了提高
Stand-alone self-attention:即使将注意力和卷积特征组合在一起,也能获得最新的结果,但在相同的计算和模型大小约束下,仅自我关注的体系结构也能达到具有竞争能力的分类精度
这些发现带来了一个问题,自我注意层是否以与卷积层相似的方式处理图像?
在这项工作中,提出了理论和经验证据,表明自我注意层可以(并且确实)学会行为类似于卷积层:
- 从理论上讲,提供了一个建设性的证据,表明自我关注
层可以表示任何卷积层。具体来说,文章展示了使用相对位置编码的单个多头自我注意层
可以重新参数化以表示任何卷积层。 - 我们的实验表明,仅关注架构的前几层(Stand-alone self-attention)确实学习了如何在每个查询像素周围加入网格状模式,类似于我们的理论建构。
2. Background on Attention Mechanisms for Vision
2.1 the Multi-Head Self-Attention Layer

上述自我注意模型的一个关键特性是它与重新排序等价,就是说,它提供相同的输出,而与T输入令牌的改组方式无关。
这是有问题的,在某些情况下,我们希望事情的顺序很重要。
为了减轻限制,位置编码是针对序列中的每个令牌(或图像中的像素)学习的,并添加到
应用自我关注之前本身:

其中,包含每个位置的嵌入向量。更一般的,
可以由返回该位置的矢量表示的任何函数代替。

2.2 Attention for Images

在下文中,回顾了如何将自注意力从一维序列适应到图像。
在图像中,我们有query 和 key 像素 。因此输入张量
的维度是
,每一个注意力得分将query和key像素相关联。

2.3 Positional Encoding For Images
位置编码目前主要有两种,分别是绝对位置编码和相对位置编码。
在绝对位置编码中,每个像素拥有一个位置向量
(学习的或固定的),于是公式2可以转换为:

相对位置编码,主要思想是仅考虑在 query 像素以及 key 像素之间的位置差异,将公式(7)中的绝对位置参数改为相对位置参数:

注意力得分只和偏移有关:

是学习到的向量,并且在每一个头中都不一样,而每个偏移的相对位置编码

是head共享的。
key 权重被分为两部分:
属于输入,
属于便宜。
3. Self-Attention As a Convolutional Layer
本节推导了足够的条件,以使多头自我注意层可以模拟
卷积层。

通过选择多头自我注意的参数来构造性地证明该定理
层,以便后者就像卷积层一样。
每个head的attention score关注不同偏移距离的像素,偏移值分别在集合
内,这样整体就类似于核。确切的条件可以在 Lemma 1 中找到。

然后,引理2表明,我们称为二次编码的相对位置编码满足上述条件


学习到的参数和
分别决定了每个头的注意力的中心,宽。


4. Experiments
一个注意力模型包括六个头的自注意力层。
不关注准确率。
在CIFAR-10数据集上和一个标准的ResNet18比较。
为了验证自我注意模型表现合理,在图6中显示了在300个训练周期内CIFAR-10的测试准确性的演变情况针对小型ResNet的自我关注模型(表1)。

ResNet收敛更快,但是不能说是否是因为卷积的固有优势或者是结果优化带来的结果。


4.2 Quadratic Encoding
验证具有公式(9)的相对位置编码的注意力层是否具有卷积层一样的行为。
使用9个头来模拟 3 x 3 的卷积,每个头注意力的中心被初始化为。
图3 展示了在训练过程中第4层中每个头(用不同的颜色表示)的初始化位置的改变
可以看到,经过优化后,头会出现在图像的特定像素上,形成一个 query 像素周围的网格。

图4展示了在结束训练后,模型里面每一层的所有注意力头。
层1,层2关注局部区域,层3-层6关注更大的区域。

4.3 Leared Relative Positional Encoding
首先,我们丢弃输入数据,仅将注意力得分作为等式(8)
的最后一项。
每个头在每一层的注意概率如图5所示。

该图证实了我们对前两层以及部分对第三层的假设:即使是从随机初始化的向量学习位置编码方案时,某些自我注意的头(如左图所示)也会学习注意各个像素,与引理1以及定理1的条件非常匹配。
ON THE RELATIONSHIP BETWEEN SELF-ATTENTION AND CONVOLUTIONAL LAYERS
网友评论