cs.CV
Swin Transformer V2: Scaling Up Capacity and Resolution
Authors: Ze Liu, Han Hu, Yutong Lin, Zhuliang Yao, Zhenda Xie, Yixuan Wei, Jia Ning, Yue Cao, Zheng Zhang, Li Dong, Furu Wei, Baining Guo
Abstract: We present techniques for scaling Swin Transformer up to 3 billion parameters and making it capable of training with images of up to 1,536×1,536 resolution. By scaling up capacity and resolution, Swin Transformer sets new records on four representative vision benchmarks: 84.0% top-1 accuracy on ImageNet-V2 image classification, 63.1/54.4 box/mask mAP on COCO object detection, 59.9 mIoU on ADE20K semantic segmentation, and 86.8% top-1 accuracy on Kinetics-400 video action classification. Our techniques are generally applicable for scaling up vision models, which has not been widely explored as that of NLP language models, partly due to the following difficulties in training and applications: 1) vision models often face instability issues at scale and 2) many downstream vision tasks require high resolution images or windows and it is not clear how to effectively transfer models pre-trained at low resolutions to higher resolution ones. The GPU memory consumption is also a problem when the image resolution is high. To address these issues, we present several techniques, which are illustrated by using Swin Transformer as a case study: 1) a post normalization technique and a scaled cosine attention approach to improve the stability of large vision models; 2) a log-spaced continuous position bias technique to effectively transfer models pre-trained at low-resolution images and windows to their higher-resolution counterparts. In addition, we share our crucial implementation details that lead to significant savings of GPU memory consumption and thus make it feasible to train large vision models with regular GPUs. Using these techniques and self-supervised pre-training, we successfully train a strong 3B Swin Transformer model and effectively transfer it to various vision tasks involving high-resolution images or windows, achieving the state-of-the-art accuracy on a variety of benchmarks. △ Less
Submitted 18 November, 2021; originally announced November 2021.
我们介绍了将SwinTransformer[35]扩展到30亿个参数的技术,并使其能够使用高达1536×1536分辨率的图像进行训练。通过扩大容量和分辨率,SwinTransformer在四个具有代表性的视觉基准上创造了新的记录:ImageNet-V2图像分类的84.0%top-1准确率、COCO目标检测的63.1/54.4 box/maskmAP、ADE20K语义分割的59.9mIoU以及Kinetics-400视频动作分类的86.8%top-1准确率。我们的技术通常适用于视觉模型的放大,这与NLP语言模型相比还没有得到广泛的探索,部分原因是训练和应用中存在以下困难:1)视觉模型通常面临规模不稳定问题;2)许多下游视觉任务需要高分辨率图像或窗口,如何有效地将低分辨率预训练的模型转换为高分辨率模型尚不清楚。当图像分辨率较高时,GPU内存消耗也是一个问题。为了解决这些问题,我们提出了几种技术,并以SwinTransformer为例进行了说明:1)后归一化技术和扩展余弦注意方法,以提高大型视觉模型的稳定性;2) 一种对数间隔连续位置偏置技术,用于有效地将在低分辨率图像和窗口中预训练的模型转换为其高分辨率对应模型。此外,我们还分享了重要的实现细节,这些细节可以显著节省GPU内存消耗,从而使使用常规GPU训练大型vision模型成为可能。利用这些技术和自监督的预训练,我们成功地训练了一个强大的30亿SwinTransformer模型,并将其有效地迁移到涉及高分辨率图像或窗口的各种视觉任务中,在各种基准上实现了最先进的精度。代码将在
1.介绍
扩展语言模型取得了令人难以置信的成功。它显著提高了模型在语言任务上的表现[13,16,37,38,40,41],并且模型展示了与人类相似的惊人的few-shot能力[6]。由于BERT大型模型具有3.4亿个参数[13],语言模型在几年内迅速扩大了1000倍以上,达到5300亿个密集参数[38]和1.6万亿个稀疏参数[16]。研究还发现,这些大型语言模型在广泛的语言任务中具有越来越强的类似于人类智能的few-shot能力[6]。
另一方面,视觉模型的扩展一直滞后。虽然人们早就认识到,较大的视觉模型通常在视觉任务上表现得更好[19,48],但最近,绝对模型大小刚刚能够达到约10-20亿个参数[11,18,28,44,65]。更重要的是,与大型语言模型不同,现有的大型视觉模型仅适用于图像分类任务[11,44,65]。
为了成功地训练大型和通用的视觉模型,我们需要解决几个关键问题。首先,我们对大型视觉模型的实验揭示了训练中的不稳定性问题。我们发现,在大型模型中,跨层激活振幅的差异变得显著更大。仔细观察原始架构可以发现,这是由直接添加回主分支的残差单元的输出引起的。结果是激活值逐层累积,因此深层的振幅明显大于早期的振幅。为了解决这个问题,我们提出了一个新的归一化配置,称为post norm,它将LN层从每个残差单元的开始移动到后端,如图1所示。我们发现这种新配置在网络层上产生的激活值要温和得多。我们还提出了一种扩展余弦注意来取代以前的点积注意。扩展余弦注意使得计算与块输入的振幅无关,并且注意值不太可能陷入极端。在我们的实验中,提出的两种技术不仅使训练过程更加稳定,而且提高了精度,特别是对于较大的模型。
其次,许多下游视觉任务,如目标检测和语义分割,需要高分辨率的输入图像或大的注意窗。低分辨率预训练和高分辨率微调之间的窗口大小变化可能相当大。当前的常见做法是对位置偏置贴图执行双三次插值[15,35]。这个简单的修复有点特别,结果通常是次优的。我们引入了一种对数间隔连续位置偏置(log CPB),它通过在对数间隔坐标输入上应用一个小型元网络,为任意坐标范围生成偏置值。由于元网络采用任何坐标,预训练的模型将能够通过共享元网络的权重在窗口大小之间自由传递。我们方法的一个关键设计是将坐标转换为对数空间,这样即使目标窗口大小明显大于预训练的窗口大小,外推率也可以很低。
模型容量和分辨率的放大也会导致现有vision模型的GPU内存消耗过高。为了解决内存问题,我们结合了一些重要的技术,包括zerooptimizer[42]、激活检查点[7]和顺序自注意计算的新实现。通过这些技术,大大降低了大型模型和分辨率的GPU内存消耗,对训练速度的影响微乎其微。
通过上述技术,我们成功地训练了一个30亿的SwinTransformer模型,并使用Nvidia A100-40G GPU将其有效地迁移到图像分辨率高达1536×1536的各种视觉任务中。在我们的模型预训练中,我们还采用了自监督预训练来减少对超大标记数据的依赖。与以前的实践(JFT3B)相比,标签数据减少了40倍,30亿模型在广泛的视觉基准上达到了最先进的精度。具体而言,它在ImageNet-V2图像分类验证集[43]上获得了84.0%的top-1准确率,在COCO测试开发对象检测集上获得了63.1/54.4 box/mask AP,在ADE20K语义分割上获得了59.9mIoU,在Kinetics-400视频动作分类上获得了86.8%的top-1准确率,分别为+NA%,+4.4/+3.3,+6.3和+1.9高于原始Swin Transformer[35,36]中的最佳数字,并超过先前的最佳记录+0.8%([65])、+1.8/+1.4%([60])、+1.5%([3])和+1.4%([45])。
通过扩展在一般视觉任务中表现出色的视觉模型的容量和分辨率,就像好的语言模型在一般NLP任务中的表现一样,我们的目标是促进这方面的更多研究,以便最终缩小视觉和语言模型之间的能力差距,并促进这两个领域的联合建模。
2.相关作品
语言网络和扩展
自[52]的先驱工作以来,Transformer服务于标准网络。该架构的扩展始于此,有效的自监督学习方法(如屏蔽或自回归语言建模)的发现加速了这一进程[13,40],扩展定律的发现进一步鼓励了这一进程[25]。从那时起,语言模型的容量在几年内急剧增加了1000多倍,从BERT-340M到Megatron-Turing-530B[6,37,38,41],再到稀疏开关Transformer-1.6T[16]。随着能力的提高,各种语言基准的准确性也得到了显著提高。能力的显著提高也鼓励了zero-shot或few-shot学习[6],这更接近人类智能的工作方式。
视觉网络和长期扩展CNN是标准的计算机视觉网络[29,30]。自AlexNet[29]以来,架构变得越来越深,大大推进了各种视觉任务,并在很大程度上推动了计算机视觉领域的深度学习浪潮,如VGG[48]、GoogleNet[49]和ResNet[19]。近两年来,CNN架构进一步扩展到约10亿个参数[18,28],然而,绝对性能可能并不令人鼓舞,这可能是由于CNN架构中的归纳偏置限制了建模能力。去年,Transformers开始接手一个又一个具有代表性的视觉基准,包括ImageNet-1K的图像级分类基准[15]、COCO目标检测的区域级基准[35]、ADE20K的像素级语义分割基准[35,67],Kinetics-400[1]等的视频动作分类基准。提出了许多视觉Transformer变体,以在相对较小的范围内提高准确性[9,14,23,31,50,55,58,61,63,64,66]。然而,只有少数作品试图利用一个巨大的标记图像数据集[11,44,65],即JFT-3B,来扩展视觉Transformer。扩展模型也仅适用于图像分类问题[11,44,65]。
跨窗口/核分辨率迁移
对于CNN,以前的工作通常在预训练和微调期间固定核大小。全局视觉Transformer(如ViT)全局计算注意力,等效的注意力窗口大小与增加的输入图像分辨率成线性扩展。对于局部vision Transformer架构(如SwinTransformer)[35],窗口大小可以在微调期间固定或变化。允许不同的窗口大小更方便,例如,可以被整个特征图整除,还可以帮助实现更好的精度。为了处理预训练和微调之间的不同窗口大小,以前的常见做法是使用双三次插值[15,35]。在本文中,我们提出了一种对数间隔连续位置偏置方法(log-CPB),它可以更平滑地传递在低分辨率下预训练的模型权重,以处理高分辨率的模型权重。
偏置研究
在NLP中,当原始Transformer中使用绝对位置嵌入时,相对位置偏置方法后来被证明是有益的[4,41]。在计算机视觉中,相对位置偏置方法更常用[21,35,61],这可能是因为视觉信号的空间关系在视觉建模中起着更重要的作用。一种常见的做法是直接将偏置值作为模型权重来学习,同时有一些工作专门研究偏置项[27,56]。
连续卷积与变异
我们的Log CPB方法还与连续卷积和变体[20,34,46,54]的早期工作有关,这些变体利用元网络来处理不规则数据点。我们的Log CPB方法受这些工作的启发,同时解决了在任意窗口大小的视觉Transformer中迁移相对位置偏置的不同问题。此外,我们还提出了对数间隔坐标,以缓解在大尺寸变化之间转换时的外推问题。
3.Swin TransformerV2
3.1. Swin Transformer简介
Swin-Transformer是一个通用的计算机视觉主干,它在各种粒度的识别任务上都有很强的性能,包括区域级目标检测、像素级语义分割和图像级图像分类。SwinTransformer的主要思想是将几个重要的视觉信号先验引入到vanilla Transformer编码器架构中,包括层次性、局部性和平移不变性,这结合了两者的优点:基本Transformer单元具有强大的建模能力,而且视觉信号优先级使它对各种视觉任务都很友好。
归一化配置
众所周知,归一化技术[2,24,51,57]对于训练更深层次的架构以及稳定训练过程至关重要。原始的SwinTransformer继承了语言Transformer和vanilla ViT中的常见做法,以利用预归一化配置,如图1所示,无需进行大量研究。在下面的小节中,我们将研究此设计。
相对位置偏置是原始Swin Transformer中的一个关键组件,该Transformer引入了一个额外的参数偏置项,用于解释自注意计算中的几何关系:其中B∈ RM2×M2是每个头部的相对位置偏置项;Q、 K,V∈ RM2×d是查询、键和值矩阵;d是查询/键维度,M2是窗口中的补丁数。相对位置偏置解释了视觉元素的相对空间配置,并在各种视觉任务中显示出关键性,特别是对于密集识别任务,如目标检测。
在旋转Transformer中,沿每个轴的相对位置位于[−M+1,M− 1] 相对位置偏置被参数化为偏置矩阵Bˆ∈ R(2M−1) ×(2M−1) ,B中的值取自Bˆ。当在不同窗口大小之间迁移时,预训练中学习的相对位置偏置矩阵用于初始化不同大小的偏置矩阵,并通过双三次插值方法进行微调。
放大模型容量和窗口分辨率中的问题我们观察到两个问题,即放大SwinTransformer的容量和窗口分辨率。
•扩大模型容量时存在不稳定性问题。如图2所示,当我们将原始的SwinTransformer模型从小尺寸放大到大尺寸时,深层的激活值会急剧增长。振幅最高和最低的层之间的差异达到了104的极限。当我们进一步将它扩展到一个巨大的规模(6.58亿个参数)时,它无法完成训练,如图3所示。
•跨窗口分辨率迁移模型时性能降低。如表1第一行所示,当我们使用双三次插值方法在更大的图像分辨率和窗口大小上直接测试预训练的ImageNet-1K模型(256×256图像,窗口大小为8×8)的精度时,精度显著下降。可能值得重新检查原始Swin Transformer中的相对位置偏置方法。
在以下小节中,我们介绍了解决上述问题的技术,包括用于解决不稳定性问题的后归一化和扩展余弦注意,以及用于解决跨窗口分辨率迁移问题的对数间隔连续位置偏置方法。
3.2. 扩大模型容量
如第3.1节所述,原始Swin Transformer(以及大多数视觉Transformer)在每个块的开头采用预归一化,继承自vanilla ViT。当我们放大模型容量时,观察到深层的活化值显著增加。事实上,在预归一化配置中,每个残差块的输出激活值直接合并回主分支,并且主分支的振幅在更深层将越来越大。不同层中的振幅差异过大可能会导致训练不稳定问题。
后归一化
为了缓解这个问题,我们建议使用后归一化方法,如图1所示。在这种方法中,每个残差块的输出在合并回主分支之前被归一化,并且当层加深时,主分支的振幅不会累积。如图2所示,这种方法的激活幅度比原始预归一化配置中的激活幅度要温和得多。在我们最大的模型训练中,我们在每6个Transformer块的主分支上额外引入一个层标准化单元,以进一步稳定训练和振幅。
标度余弦注意
在原始的自关注计算中,像素对的相似项被计算为查询和关键向量的点积。我们发现,在使用这种方法处理大型视觉模型时,特别是在后归一化配置中,某些块和头部的学习注意图通常由几个像素对控制。为了缓解这个问题,我们提出了一种扩展余弦注意方法,该方法通过扩展余弦函数计算像素对i和j的注意对数:
其中Bij是像素i和j之间的相对位置偏移;τ是一个可学习的标量,在头和层之间不共享。τ设置为大于0.01。余弦函数是自然归一化的,因此可以具有较低的注意值。
3.3. 放大窗口分辨率
在本小节中,我们介绍了一种对数间隔的连续位置偏置方法,以使相对位置偏置在窗口分辨率之间平滑迁移。
连续相对位置偏置
连续位置偏置法不是直接优化参数化偏置,而是在相对坐标上采用小型元网络:
其中,G是一个小型网络,例如,默认情况下,中间有ReLU激活的2层MLP。
元网络G生成任意相对坐标的偏置值,因此可以自然地迁移到具有任意不同窗口大小的微调任务。在推理中,每个相对位置处的偏置值可以预先计算并存储为模型参数,因此,与原始参数化偏置方法相比,它在推理时同样方便。
对数间隔坐标
当在很大程度上改变窗口大小时,将有很大一部分相对坐标范围需要外推。为了缓解此问题,我们建议使用对数间隔坐标,而不是原始线性间隔坐标:
哪里∆十、∆y和∆cx,∆cy分别是线性扩展坐标和对数间隔坐标。
通过对数间隔坐标,当我们跨窗口分辨率传递相对位置偏置时,所需的外推比率将远小于使用原始线性间隔坐标的外推比率。例如,使用原始坐标将预训练的8×8窗口大小转换为微调的16×16窗口大小,输入坐标范围为[−7, 7] × [−7,7]到[−15, 15]×[−15, 15]. 外推比为8.7=原始范围的1.14倍。使用对数间隔坐标,输入范围为[−2.079, 2.079] × [−2.079,2.079]至[−2.773, 2.773] × [−2.773, 2.773]. 外推比为原始范围的0.33倍,比使用原始线性间隔坐标的外推比小约4倍。
表1比较了不同位置偏置计算方法的迁移性能。可以看出,对数间隔CPB(连续位置偏置)方法表现最好,尤其是当迁移到较大的窗口大小时。
3.4. 其他实施
节省GPU内存的实现
另一个问题是在容量和分辨率都很大的情况下,常规实现无法负担GPU内存消耗。为了解决内存问题,我们采用以下实现:
•零冗余优化器(零)[42]。
数据并行模式的常规优化器实现向每个GPU或主节点广播模型参数和优化状态。这对于大型模型非常不友好,例如,当使用AdamW优化器和fp32权重/状态时,一个30亿参数的模型将消耗48G GPU内存。通过零优化器,模型参数和相应的优化状态将被划分并分布到多个GPU,从而显著降低内存消耗。我们采用了DeepSpeed框架,并在实验中使用了ZeRO stage-1选项。这种优化对训练速度几乎没有影响。
•激活检查点[7]。
Transformer层中的特征映射也会消耗大量GPU内存,这在图像和窗口分辨率较高时会构成瓶颈。此优化将使训练速度最多降低30%。
•顺序自注意计算。
要在非常大的分辨率上训练大型模型,例如,具有32×32窗口大小的1536×1536图像,即使采用了上述两种优化策略,常规GPU(40GB内存)仍然无法负担。我们发现,在这种情况下,自注意模块构成了一个瓶颈。为了缓解这个问题,我们依次实现了自注意计算,而不是使用以前的批量处理计算方法。该优化在前两个阶段应用于各层,对整体训练速度影响不大。
通过这些实现,我们使用Nvidia A100-40G GPU训练了一个3B模型,用于输入图像分辨率为1536×1536的COCO目标检测和输入分辨率为320×320×8的Kinetics-400动作分类。
加入自监督的方法
更大的模型更需要数据。为了解决数据匮乏的问题,以前的大型视觉模型通常要么利用巨大的标记数据,如JFT-3B[11,44,65],要么利用自监督的预训练[18]。在这项工作中,我们结合了这两种策略:一方面,我们将ImageNet-22K数据集适度放大5倍,以达到7000万张带有噪声标签的图像;虽然该数据量表仍远远落后于JFT3B,但我们还采用了一种自监督学习方法[59]来更好地利用该数据。通过结合这两种策略,我们训练了一个30亿参数的强Swin-Transformer模型,并在几个具有代表性的视觉基准上实现了最先进的精度。
3.5. 模型配置
对于4种配置的SwinTransformer V2,我们维持原始SwinTransformer的阶段、块和通道设置:
•SwinV2-T:C=96,层编号={2,2,6,2}
•SwinV2-S:C=96,层编号={2,2,18,2}
•SwinV2-B:C=128,层编号={2,2,18,2}
•SwinV2-L:C=192,层编号={2,2,18,2}
C表示第一阶段中隐藏层的通道数。
我们进一步将SwinTransformer V2扩展到其巨大尺寸和巨大尺寸,分别具有6.58亿个参数和30亿个参数:
对于SwinV2-H和SwinV2-G,我们进一步在主分支上每隔6层引入一个层归一化单元。为了节省实验时间,我们只使用SwinV2-G进行各种视觉任务的大规模实验。SwinV2-H被用于我们关于自监督学习的另一项平行研究[59]。
4.实验
4.1. 任务和数据集
我们在ImageNet-1K图像分类(V1和V2)[12,43]、COCO目标检测[33]和ADE20K语义分割[68]上进行了实验。对于3B模型实验,我们还报告了Kinetics400视频动作识别的准确性[26]。
•图像分类。ImageNet-1K V1和V2 val用于评估[12,43]。ImageNet-22K[12]具有14M图像和22K类别,可选择用于预训练。一个私人收集的ImageNet-22K-ext数据集,包含70M个图像,具有针对IN-1K V1/V2图像的重复删除过程[39],用于预训练我们最大的模型。
•目标检测。COCO[33]用于评估。对于我们最大的模型实验,我们使用Object365 v2数据集[47]进行检测预训练,在图像分类预训练之后,在COCO上进行微调之前。
•语义分段。使用了ADE20K[68]。
•视频动作分类。动力学-400(K400)[26]用于评估。
预训练和微调设置将在附录中详细说明。
4.2. 放大实验
我们首先通过将模型放大到30亿个参数和高图像/窗口分辨率,在各种有代表性的视觉基准上展示结果。在SwinV2-G实验设置中,预训练采用较小的192×192图像分辨率,以节省训练成本。我们采用两步预训练方法。
首先,使用自监督方法[59]在ImageNet-22K-ext数据集上对20个时代的模型进行预训练。其次,使用该数据集上的分类任务对该模型进行30个时代的预训练。预训练和微调设置将在附录中详细说明。
在以下段落中,我们报告了SwinV2-G在代表性视觉基准上的准确性。注意:由于我们的主要目标是探索如何可行地扩大模型容量和窗口分辨率,以及vision任务是否可以从更大的容量中获益,因此我们没有在比较中特别调整复杂性或预训练数据。
ImageNet-1K图像分类结果
表2比较了SwinV2-G模型与ImageNet-1K V1和V2分类上先前最大/最佳视觉模型。SwinV2-G是之前所有密集视觉模型中最大的。它在ImageNet V2基准上达到了84.0%的顶级精度,比之前的最佳精度(83.3%)高出+0.7%。然而,我们在ImageNet-1K V1上的准确率略低(90.17%对90.88%)。性能差异可能来自不同程度的数据集过度调优[43]。还要注意的是,与以前的工作相比,我们使用了更少的训练迭代和更低的图像分辨率,同时执行了更高的性能。
我们还将SwinV2-B和SwinV2-L分别与原始SwinV1-B和SwinV1-L进行比较,其中观察到+0.8%和+0.4%的增益。与SwinV2-B相比,SwinV2-L缩小的增益可能意味着需要更多的标记数据、更强的正则化或先进的自监督学习方法(如果超出此范围)。
COCO目标检测结果
表3将SwinV2-G模型与之前COCO对象检测和实例分割的最佳结果进行了比较。它在COCO测试开发上实现了63.1/54.4 box/max AP,比之前的最佳数字(61.3/53.0乘以[60])高出+1.8/1.4。这表明放大视觉模型有利于目标检测的稠密视觉识别任务。我们的方法可以在测试时使用不同的窗口大小来增加增益,这可能归因于有效的对数间隔CPB方法。
ADE20K语义分割
结果表4将SwinV2-G模型与ADE20K语义分割基准上以前的最佳结果进行了比较。它在ADE20K val集合上达到5990万,比之前的最佳数(58.4乘以[3])高出+1.5。这表明放大视觉模型有利于像素级的视觉识别任务。在测试时使用更大的窗口大小还可以带来+0.2增益,这可能归因于有效的对数间隔CPB方法。
Kinetics-400视频动作分类结果
表5将SwinV2-G模型与动力学-400动作分类基准上以前的最佳结果进行了比较。它实现了86.8%的top-1精度,比以前的最佳数字高出+1.4%[45]。这表明扩大视觉模型也有利于视频识别任务。在这种情况下,在测试时使用较大的窗口大小还可以额外带来增益(+0.2%),这可能归因于有效的对数间隔CPB方法。
4.3. 烧蚀研究
后归一化和扩展余弦注意消除表6消除了将建议的后归一化和扩展余弦注意方法应用于原始Swin方法的性能。这两种技术都提高了所有微小尺寸、小尺寸和基础尺寸的精度,总体改进分别为+0.2%、+0.4%和+0.5%,表明这些技术对较大的模型更为有利。
更重要的是,后归一化和标度余弦注意的结合稳定了训练。如图2所示,虽然原始Swin Transformer的深层激活值几乎在大(L)尺寸下爆炸,但新版本的激活值具有更温和的行为。在大型模型上,自监督预训练[59]使用原始的Swin Transformer进行发散,而通过Swin TransformerV2模型进行良好训练。
通过不同的方法提高窗口分辨率
表1通过分别在ImageNet-1K图像分类、COCO目标检测和ADE20K语义分割的3个下游视觉任务中,将预训练中的窗口分辨率从256×256扩展到更大的尺寸,从而消除了3种方法的性能。可以看出:1)不同方法在预训练的准确率相近(81.7%-81.8%);2) 当迁移到下sream任务时,两种连续位置偏置(CPB)方法的性能始终优于原始Swin Transformer中使用的参数化位置偏置方法。与线性间隔法相比,对数间隔法稍微好一些;3) 预训练和微调之间的分辨率变化越大,建议的对数间隔CPB方法的效益就越大。
在表1中,我们还报告了无需微调的目标窗口分辨率的精度(参见ImageNet-1K实验中每列的第一个数字)。可以看出,即使将窗口大小从8扩大到24(78.9%对81.8%),识别精度仍保持良好,而原始方法的识别精度从81.7%显著降低到68.7%。还请注意,如果不进行微调,使用预训练的模型从未见过的窗口大小12,甚至可以比原始精度高出+0.4%。这表明我们可以通过调整测试时间窗口来提高精度,表3、4和5也观察到了这一点。
5.结论
我们介绍了将SwinTransformer扩展至30亿个参数的技术,使其能够使用高达1536×1536分辨率的图像进行训练,包括后归一化和扩展余弦注意,以使模型更易于在容量上进行扩展,以及对数间隔连续相对位置偏置方法,该方法可使模型更有效地跨窗口分辨率迁移。经过调整的架构名为SwinTransformer V2,通过扩大容量和分辨率,它在四个具有代表性的视觉基准上建立了新的记录:ImageNet-V2图像分类的84.0%top-1精度,COCO目标检测的63.1/54.4盒/掩模图,599百万onADE20K语义分割,在Kinetics-400视频动作分类中,准确率为86.8%。通过这些强有力的结果,我们希望在这个方向上激发更多的研究,以便最终缩小视觉和语言模型之间的能力差距,并促进这两个领域的联合建模。
网友评论