ConvMAE: Masked Convolution Meets Masked Autoencoders
https://github.com/Alpha-VL/ConvMAE
Authors: Peng Gao, Teli Ma, Hongsheng Li, Jifeng Dai, Yu Qiao
Submitted 8 May, 2022; originally announced May 2022.
https://arxiv.org/abs/2205.03892
摘要:视觉转换器(ViT)已成为各种视觉任务中广泛采用的架构。用于特征预训练的掩蔽自动编码和多尺度混合卷积变换结构可以进一步释放ViT的潜力,从而在图像分类、检测和语义分割方面取得最先进的性能。在本文中,我们的ConvMAE框架证明了多尺度混合卷积变换器可以通过掩码自动编码方案学习更多的鉴别表示。然而,直接使用原始掩蔽策略会导致计算量大和预训练微调差异。为了解决这个问题,我们采用了掩蔽卷积来防止卷积块中的信息泄漏。为了保证计算效率,提出了一种简单的分块掩蔽策略。我们还建议更直接地监督编码器的多尺度特征,以增强多尺度特征。基于我们预训练的ConvMAE模型,ConvMAE-Base将ImageNet-1K微调精度比MAE-Base提高了1.4%。在目标检测方面,仅为25个历元微调的ConvMAE Base比为100个历元微调的MAE Base分别高出2.9%的box AP和2.2%的mask AP。代码和预训练模型可在https://github.com/Alpha-VL/ConvMAE
自监督学习框架,如DINO[5]、MOCO-V3[8]、MAE[26],释放了视觉Transformer(ViT)的潜力,并在各种视觉下游任务上实现了出色的性能[31、28、60]。Mask Autoencoders(MAE)[26]是最近用于训练ViT的具有代表性的自监督方法。受自然语言处理中BERT[13]的启发,通过一种新的非对称编码器和解码器结构进行特征预训练,其中编码器的屏蔽令牌由解码器重建。可以从ImageNet-1K[12]中学习具有辨别力和可扩展性的视觉表示,而无需依赖大规模数据集,如ImageNet-22K或JFT300M。
随着自监督学习的成功,人们探索了局部归纳偏见[51,20,32,10,17,59]和分层表征[41,56]来提高ViT的性能。局部卷积和全局Transformer运算的结合在图像分类[31]、目标检测[28]和语义分割[60]方面显示出了显著的改进。与MAE[26]相比,基于局部和全局的表现良好的多规模主干主要通过监督学习方法进行培训。一个自然的问题是,具有局部和全局操作的多尺度主干网(在监督学习方面表现出良好的性能)是否可以通过屏蔽自动编码范式得到增强[26,13,2,66]。
本文提出了一个简单有效的自监督学习框架ConvMAE,通过在屏蔽自动编码器中引入混合卷积Transformer结构和屏蔽卷积来训练可扩展表示。尽管对原始MAE的修改很少,但ConvMAE在预训练视觉表征以提高各种任务的性能方面取得了巨大成功。与MAE Base[26]相比,ConvMAE Base将ImageNet-1K微调精度分别提高到85.0%(+1.4%)、COCO detection APbox提高到53.2%(+2.9%)和51.7%(+3.6%)和SuperNet。
与MAE[26]不同的是,ConvMAE的编码器在第1、2、3阶段分别将输入图像逐步抽象为1/4、1/8、1/16输入分辨率的多尺度标记嵌入,而解码器通过利用多尺度标记嵌入重建与屏蔽标记对应的像素。对于第1阶段和第2阶段的低级别高分辨率令牌嵌入,采用卷积块对局部信息进行编码。对于第3阶段的高级别低分辨率令牌嵌入,Transformer块用于聚合全局上下文。因此,编码器在不同阶段具有局部/全局FOV,并生成有区别的多尺度特征。请注意,ConvMAE编码器受到强混合卷积和变压器主干的高度激励,包括Co AtNet[10]、早期卷积[59]、容器[20]和Uniformer[32]。然而,这种混合卷积变压器网络要么没有被用于屏蔽自动编码[20,32,18],要么表现出与MAE非常相似的性能[54,61]。我们没有设计新的架构,而是专注于使基本的混合卷积Transformer架构适用于屏蔽自动编码,并进行大量实验,以证明其在各种下游任务中的有效性。
ConvMAE的高效和有效训练是通过一种具有屏蔽卷积的分块屏蔽策略实现的[62,23,30,49,22,39]。当前的Maskauto编码框架(如BEiT[2]、MAE[26]、SimMIM[61])中采用的屏蔽策略不能简单地用于ConvMAE,因为所有令牌都需要保留在后期转换阶段。对大型和大型模型进行预训练会产生无法承受的计算成本,从而失去MAE在变压器编码器中省略屏蔽令牌的效率优势。此外,使用卷积变压器编码器直接预训练会导致预训练微调差异,因为微调阶段只处理可见的令牌。为了解决这些问题,ConvMAE采用分块屏蔽策略,首先为变压器3级获得1/16输入分辨率的屏蔽,然后逐步将卷积2级和1级的屏蔽上采样到1/8和1/4的更大分辨率。通过这种方式,第三阶段令牌可以完全分为屏蔽令牌和可见令牌,并继承MAE的计算效率。为了防止信息泄漏,第一阶段和第二阶段的卷积块配备了屏蔽卷积,避免了在第三阶段混淆屏蔽区域和可见区域的特征,以确保训练效果。屏蔽卷积在稀疏特征提取[23,49,22,62]和图像修复[39]中得到了很好的研究。它可以自然地集成到混合卷积Transformer器架构中,以实现屏蔽自动编码。
我们的ConvMAE可以自然地为目标检测和语义分割提供多尺度特征,这是现代检测[28]和分割框架[60]所需要的。预训练的ConvMAE多尺度特征可以显著提高目标检测和语义分割的性能。ConvMAE甚至可以通过基于屏蔽的自动编码超越Swin和MViT[41,34]的完全监督预训练。
综上所述,我们的贡献可以总结如下:(1)我们提出了强大而高效的自监督框架ConvMAE,该框架易于实现,但在不同的任务中表现出优异的性能。(2) 所提出的ConvMAE能够自然地生成层次表示,并在目标检测和分割方面表现出良好的性能。(3) 与MAE Base相比,ConvMAE Base将ImageNet微调精度提高了1.4%。在COCO 2017上,凭借Mask RCNN,ConvMAE Base实现了53.2%的APbox和47.1%的AP Mask,拥有25个epoch的训练计划,而MAE Base实现了50.3%的APbox和44.9%的AP Mask,拥有100个训练epoch。在拥有Supernet的ADE20K上,ConvMAE Base超过MAE Base 360万(48.1%对51.7%)。
2.相关工作
视觉Transformer。
近年来,自然语言理解(NLP)[13,46,3]和多模态学习[52,19,45]方面的重大进展主要是由Transformer Architecture[55]推动的。Transformer Architecture[55]不仅提供了使用关键查询注意的高容量神经模块,还揭示了统一所有任务和所有数据模式的美好前景。Vision Transformer(ViT)[16]和DETR[4]展示了纯Transformer体系结构在基本视觉任务中的强大能力,与复杂视觉管道相比,实现了优异的性能[50、48、37]。ViT/DETR不同于视觉中传统的探索性局部归纳偏置和多尺度表征[31,29],ViT/DETR使用全局、单尺度和先验自由注意模块处理视觉任务,以缓慢收敛为代价实现高精度。为了提高收敛速度和精度,在视觉Transformer中重新引入了经过充分探索的局部感应偏置。在目标检测中,变形DETR[67]、SMCA-DETR[21]、SAM-DETR[64]、DAB-DETR[40]显著加快了DETR的收敛速度,并通过更好地设计局部归纳偏置改进了目标检测图。在视觉主干设计中也观察到了这样的成功[25,63,53,17,58,24]。PVT[56]在ViT中引入了多尺度表示,并在目标检测和语义分割方面提高了下游传输能力。SWIN[41]提出了一种简单的移位局部窗口机制,用于使用关键查询注意进行有效的窗口内和窗口间通信。BoT[51]、Early Conv[59]、Co-AtNet[10]、Container[20]、Uniformer[32]observe卷积和变压器的混合结构设计可以在图像分类、图像检测、语义分割、姿势估计和视频理解等广泛任务中实现最先进的性能。我们的ConvMAE受到vision backbones中混合式架构设计[20,32]的高度激励。ConvMAE的目标不是设计新的架构,而是通过MAE风格的预训练,通过几次有见地的修改,释放混合架构带来的强大表现力。
自监督表征学习。
对比学习和屏蔽自动编码是自监督呈现学习的两个热门分支。对比学习的目的是通过比较未标记图像的增强视图来学习不变性。SimCLR[6]展示了简单的对比学习可以学习到强表征。MOCO[27]添加了一个慢动量编码器,以增加对比学习中的负面样本。DINO[5]和MOCO-V3[8]对如何使用对比学习训练ViT进行了广泛的研究。最近,自监督学习的另一个分支,即屏蔽自动编码,由BERT[13]提出,是一种很有前途的方法。MaskAutoencoding不依赖于建立用于对比学习的强图像增强,可以通过对随机裁剪的图像进行蒙版面片重建来学习强表示。BEiT[2]首次将屏蔽自动编码引入视觉领域。为了构建一个强大且可扩展的图像学习器,MAE[26]引入了一种非对称编码器和解码器体系结构,在计算量大的编码器中跳过屏蔽令牌,只通过一个轻量级解码器传递所有令牌。iBoT[66]和Data2Vec[1]借用动量编码器和对比学习来改进掩模自动编码。PeCo[15]引入了一种感知标记器,用于改进表征学习。MaskFeat[57]对重建目标进行消融研究,并从DINO和masked HOG中提取点屏蔽的无监督特征,这些特征是在屏蔽RGB像素和码本之外进行表征学习的良好信号。Three Things[54]和MIMDet[18]探讨了在BEiT和MAE上附加卷积柄的好处。与之前对屏蔽自动编码的改进不同,ConvMAE在MAE中引入了层次表示和多尺度卷积Transformer器结构。我们相信,在PeCo[15]、MaskFeat[57]、iBoT[66]和Data2Vec[1]中获得的有用经验可以使我们的ConvMAE受益。
MAE进行检测。
自监督预训练主干在各种视觉基准测试中显示出了有希望的结果,其中目标检测[28]是最重要和最具挑战性的视觉任务。有几项工作显示了采用MAE进行目标检测的良好结果。Benchmarking ViT[35]从预训练MAE编码器的不同层提取特征,并使用特征适配器生成尺寸为H4×W4、H8×W8、H16×W16和H32×W32的多尺度特征图。ViTDet[33]提出了一个简单的特征金字塔,通过从最后一层生成多尺度特征,而不是基准ViT中提出的不同层。ViTDet还删除了特征金字塔网络(FPN)内部的横向连接[36]。ViTDet[33]大大简化了现代目标检测[36]的流程。基准测试ViT和ViTDet都将原来的全局Transformer块替换为交错的局部和全局Transformer块,并观察到GPU内存利用率和计算成本显著降低,目标检测性能略有下降。MIMDet[18]添加了一个随机初始化的卷积干,以取代预训练MAE中使用的大跨步非重叠贴片嵌入层。由于卷积层是随机初始化的,MIMDet无法获得最佳的目标检测性能。此外,MIMDet同时利用MAE编码器和解码器实现高质量的目标检测,而其他方法仅采用MAE编码器。在基准测试ViT[35]、ViTDet[33]和MIMDet[18]的推动下,我们设计了一种简单有效的方法,将ConvViT返回的多尺度特征用于对象检测[28]和语义分割[60]。
网友评论