Neighborhood Attention Transformer
https://arxiv.org/abs/2204.07143
https://github.com/SHI-Labs/Neighborhood-Attention-Transformer
14 Apr 2022
Ali Hassani, Steven Walton, Jiachen Li, Shen Li, Humphrey Shi
我们提出了邻域注意力变换器(NAT),这是一种高效、准确和可扩展的层次变换器,在图像分类和下游视觉任务中都能很好地工作。它建立在邻域注意力(NA)的基础上,这是一种简单灵活的注意力机制,将每个查询的感受野定位到其最近的相邻像素。NA是自我注意力的一种定位,随着感受野大小的增加而接近。它在触发器和内存使用方面也相当于在相同接收场大小的情况下,Swin Transformer的转移窗口注意力,同时受到较少的约束。此外,NA包括局部感应偏差,这消除了额外操作的需要,例如像素偏移。NAT的实验结果具有竞争力;NAT-Tiny在ImageNet上达到83.2%的top-1精度,只有4.3 GFLOPs和28M参数,在MS-COCO上达到51.4%的mAP,在ADE20k上达到48.4%的mIoU。我们将在以下网址开放我们的检查点、训练脚本、配置和CUDA内核的源代码:https URL。
用类似于卷积滑动窗口的方式来实现注意力。其实这种想法并不新鲜,早在SASA模型中就提出这样的概念。但这篇工作仍值得注意,因为其提供一种高效的注意力滑动窗口的CUDA计算方式。
有两点疑问:
(1)实际速度和显存占用如何?在论文中没有介绍
(2)感受野是3x3?

Dilated Neighborhood Attention Transformer
29 Sep 2022
https://arxiv.org/abs/2209.15001
https://paperswithcode.com/paper/dilated-neighborhood-attention-transformer
作者:Ali Hassani, Humphrey Shi
变形金刚正迅速成为跨模式、领域和任务应用最广泛的深度学习架构之一。在愿景中,除了对普通变压器的持续努力之外,由于其性能和易于集成到现有框架中,分层变压器也得到了极大的关注。这些模型通常采用局部注意机制,例如滑动窗口邻居注意(NA)或Swin Transformer的移位窗口自我注意。虽然能够有效地降低自我注意的二次复杂度,但局部注意削弱了自我注意的两个最理想的特性:长程相互依赖模型和全局接受场。在本文中,我们介绍了扩展邻里注意(DiNA),它是对NA的一种自然、灵活和高效的扩展,可以捕获更多的全局上下文并以指数方式扩展接受域,而无需额外的成本。NA的局部注意和DiNA的稀疏全局注意相辅相成,因此我们引入了扩展邻域注意变压器(DiNAT),这是一种基于二者的新的分层视觉变压器。DiNAT变体比基于注意力的基线(如NAT和Swin)以及现代卷积基线ConvNeXt有显著改进。我们的Large模型在COCO对象检测方面领先于Swin模型1.5%的box AP,COCO实例分割方面1.3%的mask AP,ADE20K语义分割方面1.1%的mIoU,吞吐量更快。我们相信,NA和DiNA的组合有潜力实现本文所述以外的各种任务。为了支持和鼓励这一方向、愿景和未来的研究,我们将项目开源于:https://github.com/SHI-Labs/Neighborhood-Attention-Transformer.
网友评论