A Study of Autoregressive Decoders for Multi-Tasking in Computer Vision
Mar 2023
Lucas Beyer, Bo Wan, Gagan Madan, Filip Pavetic, Andreas Steiner, Alexander Kolesnikov, André Susano Pinto, Emanuele Bugliarello, Xiao Wang, Qihang Yu, Liang-Chieh Chen, Xiaohua Zhai
[Google Research]
https://arxiv.org/abs/2303.17376
最近,计算机视觉模型激增,它们执行许多任务,并由图像编码器(通常是ViT)和自回归解码器(通常是Transformer)组成。然而,这项工作中的大多数只是简单地介绍了一个系统及其结果,留下了许多关于设计决策和这些系统的权衡的问题没有得到解答。在这项工作中,我们的目标是提供这样的答案。我们仔细研究了用于多模式计算机视觉中多任务学习的自回归解码器,包括分类、字幕、视觉问答和光学字符识别。通过广泛的系统实验,我们研究了任务和数据混合、训练和正则化超参数、条件类型和特异性、模态组合等的影响。重要的是,我们将这些与调整良好的单任务基线进行比较,以突出多任务所产生的成本。一个关键发现是,在冻结的预训练编码器之上学习的小型解码器工作得出奇地好。我们将这种设置称为带解码器的锁定图像微调(LiT解码器)。它可以被视为教解码器通过自然语言与预先训练的视觉模型进行交互。
网友评论