He K, Chen X, Xie S, et al. Masked autoencoders are scalable vision learners[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022: 16000-16009.
摘要导读
本文作者提出了掩码自动编码器(Masked Auto-Encoders, MAE),并证明了这是一种可扩展的计算机视觉自监督学习器。 MAE对输入图片的随机块区域进行掩码,并且去重构这些缺失的区域。整个模型的设计主要依赖于两个核心的设计。具体来说,本文首先设计了一个非对称的encoder-decoder结构,encoder部分仅使用可见区域的子集进行操作(而不包含那些被mask掉的token),以及一个轻量级的解码器,其使用encoder学习到的隐含表示以及mask token来对原始的输入图片进行重构。其次,作者发现对输入图片进行高比例的mask,可以产生一项有意义的自监督任务。通过耦合这两种设计,可以有效的训练大型模型。
模型浅析
MAE可以看做是一种更加通用的去噪自编码器。
MAE
在预训练阶段,图片分块中75%的的部分被masked。MAE中的encoder部分应用于可见的图片分块。在encoder之后引入了mask tokens,将编码后的图片分块和被masked的token一起喂入一个小的decoder中,对原始的图片输入进行重构。在预训练之后,decoder直接被弃用而encoder部分则被作用于未损坏的完整图片以用于识别任务。
- 概述
MAE使用encoder将可观测的图片信号转化为潜在的表示,并使用一个轻量级的decoder将潜在的表示重建为原始的信息。MAE的编码和解码器是非对称的。 - Masking
首先对图片的划分遵循了ViT,将图片划分为规则且不重叠的图片块。从这些分块中采样一个子集,并将剩余的部分进行mask(remove)。这里采用均匀采样的方式进行对子集的选取。 - MAE encoder
编码器通过添加位置嵌入的线性投影来对图片分块进行嵌入学习,然后通过一系列Transformer处理结果集。由于编码器仅对数据全集的一个小子集进行操作,因此允许使用较小的内存和计算实现对大型编码器的训练。 - MAE decoder
解码器的输入为完整的标记集合:(1)可见的图片分块;(2)掩码标记。掩码标记在嵌入表示中是共享的,因此这个完整集中的加入了位置嵌入信息,已提供更好的嵌入学习。解码器也是一系列的Transformer。MAE解码器仅在训练前用于执行图像重建任务(只有编码器用于产生用于识别的图像表示)。因此,解码器架构可以以独立于编码器设计的方式灵活设计。通过这种不对称的设计,完整的标记集只由轻量级的解码器来处理,这大大减少了预训练的时间。 - 重构目标
提出的MAE通过预测每个图片的mask分块的像素值来重建输入。解码器输出中的每个元素都是一个代表一个分块所对应的像素值的向量(解码器的最后一层是一个线性的映射层,其输出的维度数量是一个图片分块中所包含的像素值的数目)。损失函数用于计算被mask掉的图片分块在像素空间中重建图像和原始图像之间的均方误差(MSE)。这一点的设计和BERT是一致的。
同时,也研究了一个变种模型,其重建的目标是每个被mask掉的图片分块的归一化的像素值。具体来说,通过计算一个图片分块中所有像素的平均值和标准差,并使用其来对这个分块进行归一化。
对基于图片的大模型进行预训练,可以看做BERT在图片领域的应用。对于我们这种资源有限的小实验室,可能。。是无法实现了。但是对模型思路的设计,还是可以学习一下。比如GraphMAE,似乎就具有很强的实操性。
网友评论