编者注:编者尚未细读BEiT v2这篇论文。BEiT v2似乎依赖于CLIP,这意味着它实际上依赖于额外的更多的数据与训练,将其与图1中的其它方法直接对比似乎是不公平的。将CLIP与MIM联系,微软今年5月还有另一篇工作:Contrastive Learning Rivals Masked Image Modeling in Fine-tuning via Feature Distillation
https://arxiv.org/abs/2205.14141
BEiT v2: Masked Image Modeling with Vector-Quantized Visual Tokenizers
日期:12 Aug 2022
作者:Zhiliang Peng, Li Dong, Hangbo Bao, Qixiang Ye, Furu Wei
单位:中国科学院大学,微软
原文:https://arxiv.org/abs/2208.06366
开源:https://github.com/microsoft/unilm/tree/master/beit
Masked image modeling (MIM) has demonstrated impressive results in self-supervised representation learning by recovering corrupted image patches. However, most methods still operate on low-level image pixels, which hinders the exploitation of high-level semantics for representation models. In this study, we propose to use a semantic-rich visual tokenizer as the reconstruction target for masked prediction, providing a systematic way to promote MIM from pixel-level to semantic-level. Specifically, we introduce vector-quantized knowledge distillation to train the tokenizer, which discretizes a continuous semantic space to compact codes. We then pretrain vision Transformers by predicting the original visual tokens for the masked image patches. Moreover, we encourage the model to explicitly aggregate patch information into a global image representation, which facilities linear probing. Experiments on image classification and semantic segmentation show that our approach outperforms all compared MIM methods. On ImageNet-1K (224 size), the base-size BEiT v2 achieves 85.5% top-1 accuracy for fine-tuning and 80.1% top-1 accuracy for linear probing. The large-size BEiT v2 obtains 87.3% top-1 accuracy for ImageNet-1K (224 size) fine-tuning, and 56.7% mIoU on ADE20K for semantic segmentation. The code and pretrained models are available at this https URL.
掩蔽图像建模(MIM)通过恢复受损图像块,在自监督表示学习中取得了令人印象深刻的结果。然而,大多数方法仍然在低级别图像像素上操作,这阻碍了表示模型的高级语义的利用。在本研究中,我们建议使用语义丰富的视觉标记器作为掩蔽预测的重建目标,为MIM从像素级提升到语义级提供了一种系统的方法。具体而言,我们引入向量量化知识蒸馏来训练标记器,该标记器将连续语义空间离散化以压缩代码。然后,我们通过预测蒙版图像块的原始视觉标记来预训练视觉变换器。此外,我们鼓励该模型将面片信息显式聚合为全局图像表示,这有助于线性探测。图像分类和语义分割实验表明,该方法优于所有MIM方法。在ImageNet-1K(224尺寸)上,基本尺寸BEiT v2实现了85.5%的微调精度和80.1%的线性探测精度。大尺寸BEiT v2在ImageNet-1K(224尺寸)微调方面获得87.3%的顶级精度,在ADE20K上获得56.7%的mIoU用于语义分割。代码和预训练模型可在https://aka.ms/beit.






Contrastive Learning Rivals Masked Image Modeling in Fine-tuning via Feature Distillation
日期:27 May 2022
作者:Yixuan Wei, Han Hu, Zhenda Xie, Zheng Zhang, Yue Cao, Jianmin Bao, Dong Chen, Baining Guo(和SwinTransformer有重叠)
单位:清华大学,微软
原文:https://arxiv.org/abs/2205.14141
开源:https://github.com/SwinTransformer/Feature-Distillation
掩蔽图像建模(MIM)学习表示具有非常好的微调性能,掩盖了以前流行的预训练方法,如图像分类、实例对比学习和图像文本对齐。在本文中,我们表明,通过以特征蒸馏(FD)的形式进行简单的后处理,可以显著改善这些预训练方法较差的微调性能。特征提取将旧表示转换为新表示,新表示具有一些期望的特性,就像MIM生成的那些表示一样。这些属性,我们统称为优化友好性,由一组与注意力和优化相关的诊断工具识别和分析。有了这些特性,新表示法显示出强大的微调性能。具体而言,对比自监督学习方法在微调方面与最先进的掩蔽图像建模(MIM)算法一样具有竞争力。CLIP模型的微调性能也得到了显著改善,在ImageNet-1K分类中,CLIP ViT-L模型的精度达到\textbf{89.0%}top-1。在30亿参数的SwinV2-G模型上,ADE20K语义分割的微调精度提高了+150万到\textbf{61.4万,创造了一个新记录。更重要的是,我们的工作为未来的研究提供了一种方式,即更加关注学习表示的通用性和可扩展性,而不必预先考虑优化友好性,因为它可以很容易地增强。该代码将在此https URL上可用。



网友评论