牛人会为了提升模型效果加上各种花里胡哨的操作来提升一点点准确率,而神人为不断简化模型,通过很简单的模型来提升模型的效果,何凯明
的这篇文章基于transformer的基础上进行模型优化,极大的提高了模型效果,简单看一张图就知道了,右侧表示的是新的plain backbone
。当然这篇文章还是有另一个神人坐镇Ross Girshick
, 哈哈是不是很熟悉,Faster Rcnn的作者。
论文地址:Exploring Vision Transformer Backbones for Object Detection
同时这里提一下该文章也是用了何凯明的另一个方法,即MAE方法,论文地址:Masked Autoencoders Are Scable Vision Learners
本文提出了一种掩膜自编码器 (MAE)架构,可以作为计算机视觉的可扩展自监督学习器使用。
之前NLP领域BERT模型的MASK比例通常在15%左右,视觉领域ViT论文的MASK比例是20%,而本文通过实验,得出的结论是在75%的Mask比例下,模型可以更好的学到和吸收语义知识。作者在解释原因的时候引入了信息密度的概念,解释自然语言和视觉的在信息含量上的不同,自然语言是人类的高级语言,每一个字符都蕴含着比较多的语义和信息,而视觉信息在像素粒度上有着比较大的冗余,可以很轻松用周围像素恢复该像素,进而引出视觉任务要提升难度,做更大比例的mask,让模型去学习更多的知识
在预训练期间,大比例的随机的图像块子集(如 75%)被屏蔽掉。编码器用于可见patch的小子集。在编码器之后引入掩码标记,并且完整的编码块和掩码标记集由一个小型解码器处理,该解码器以像素为单位重建原始图像。
预训练后,解码器被丢弃,编码器应用于未损坏的图像以生成识别任务的表示。
MAE 是一种简单的自编码方法,可以在给定部分观察的情况下重建原始信号。由编码器将观察到的信号映射到潜在表示,再由解码器从潜在表示重建原始信号。
与经典的自动编码器不同,MAE采用非对称设计,允许编码器仅对部分观察信号(无掩码标记)进行操作,并采用轻量级解码器从潜在表示和掩码标记中重建完整信号。
我们可以用其编码器的特征进行训练下游模型。
这里强调下BEiT也是一个非常好的文章,这里推荐一波博客(《BEIT》-基于图像重建进行预训练!微软提出BEIT,Top-1准确率达86.3%!代码已开源),以及其中说到DVAE的内容可以参考(多模态预训练:DALL-E, 初探VAE-VAE的动机和基本原理 -- from AE to VAE)
参考文献:
【1】CV大神何恺明最新一作:视觉预训练新范式MAE!下个CV大模型要来
网友评论