UViM: A Unified Modeling Approach for Vision with Learned Guiding Codes
May 2022
NeurIPS 2022
Alexander Kolesnikov, André Susano Pinto, Lucas Beyer, Xiaohua Zhai, Jeremiah Harmsen, Neil Houlsby
[Google Research, Brain Team Zürich]
https://arxiv.org/abs/2205.10337
https://github.com/google-research/big_vision
https://neilhoulsby.github.io/
https://openreview.net/forum?id=lxsL16YeE2w
评审意见:三位评审员提供了积极的评价,这些评价在讨论后得到了进一步加强。他们一致认为动机很强,模型很新颖,论文写得很好。他们赞赏作者提供的消融,并发现结果令人信服。审稿人的主要担忧是作者在反驳中提供了一个缺失的实验,并得到了多位审稿人的赞赏。总之,审稿人一致支持这篇论文。我同意他们的评论,我建议接受。
摘要:我们引入了UViM,这是一种能够对各种计算机视觉任务进行建模的统一方法。与以前的模型相比,UViM对所有任务都具有相同的功能形式;它不需要特定于任务的修改,这需要大量的人力专业知识。该方法包括两个部分:(I)基础模型(前馈),其被训练以直接预测原始视觉输出,由学习的离散代码指导;(II)语言模型(自回归),其训练以生成指导代码。这些组件相互补充:语言模型非常适合建模结构化的相互依赖的数据,而基础模型在处理高维输出方面非常有效。我们展示了UViM在三个不同且具有挑战性的视觉任务上的有效性:全景分割、深度预测和图像彩色化,在这些任务中,我们获得了具有竞争力且接近最先进的结果。我们的实验结果表明,UViM是计算机视觉中统一建模方法的一个有前途的候选者。
We introduce UViM, a unified approach capable of modeling a wide range of computer vision tasks. In contrast to previous models, UViM has the same functional form for all tasks; it requires no task-specific modifications which require extensive human expertise. The approach involves two components: (I) a base model (feed-forward) which is trained to directly predict raw vision outputs, guided by a learned discrete code and (II) a language model (autoregressive) that is trained to generate the guiding code. These components complement each other: the language model is well-suited to modeling structured interdependent data, while the base model is efficient at dealing with high-dimensional outputs. We demonstrate the effectiveness of UViM on three diverse and challenging vision tasks: panoptic segmentation, depth prediction and image colorization, where we achieve competitive and near state-of-the-art results. Our experimental results suggest that UViM is a promising candidate for a unified modeling approach in computer vision.
5 相关工作
本文涉及计算机视觉领域的大量文献,因为所提出的建模方法旨在统一广泛的视觉任务。我们专注于最相关的工作,这些工作要么朝着统一模型的方向推进,要么使用高度相关的建模技术。
生成和自回归模型。
与生成建模一样,我们也有类似的目标,即对高维结构化输出进行建模。一项著名的工作,Pix2Pix[19],使用条件GAN模型将任意图像输入映射到任意图像输出。尽管超越了生成任务,并显示了语义分割任务的一些输出,但该模型尚未成为一种竞争性方法,可能是由于GAN训练的复杂性和不稳定性。
自回归模型作为(条件)图像生成工具在计算机视觉中获得了广泛的应用[50,49,41],后来被用于图像着色等任务[38,14,28]。然而,用于非常高维输出的自回归模型的可扩展性是一个大问题,这需要额外的复杂性,例如分层生成[49,25]或学习额外的上采样模型[14,28]。通过模型的反复“自回归”调用来建模复杂结构化目标的想法被用于视觉关系预测[24]和人类姿态估计[12]的定制实现中。
更接近我们的方法是使用具有自回归学习先验的学习离散表示[51]。DALL-E[36]显示了通过使用仅解码器Transformer对文本和图像离散表示序列进行建模来生成文本条件图像。VQGAN[11]显示了通过使用对抗性和感知损失来学习离散表示,在任意图像输入中条件下的高质量自然图像生成。VIT-VQGAN[54]通过码本改进改进了类条件图像合成,并通过VIT[9]对VQGAN进行了参数化。Similarity NÜWA[53]提出了一种3DTransformer编码器解码器,该解码器使用学习的离散表示来覆盖语言、图像和视频。值得注意的是,这些工作集中于(有条件的)生成图像任务,而大多忽略了区分图像任务。
场景理解。
有几个基本的视觉任务需要模型来执行高级场景解析,例如对象检测、实例或全景分割。许多标准方法,如Faster RCNN[37]、Mask RCNN[15]和RetinaNet[30],对大量评分的锚框进行“密集”预测,然后进行特殊的非最大抑制程序以消除冗余框。DETR[2]采用另一种方法,使用基于集合的全局损失(通过提议和基本事实的二分匹配)的端到端模型。DETR模型也可用于全景分割[23],其中初始方法包括组合针对任务的每个子部分(实例和语义分类)优化的模型。MaX DeepLab提出了一种无框端到端方法,该方法使用掩码Transformer直接预测类标记的掩码。MaskFormer[6]进一步证实了该问题的掩码分类视图对于语义分割是重要的。Mask2Former[5]限制了预测掩码周围的交叉注意力学习,从而加快了收敛速度并提高了性能。尽管在场景理解领域有一些有希望的融合,但所提出的方法仅适用于重要但相对较窄范围的任务。
视觉模型统一。
Perceiver IO模型[20]提出了一种可以有效处理高维输入和输出的架构,但是,与UViM不同,它并没有设计成对结构化输出的联合分布进行建模。PIX2SEQ[4]提出了一个与我们高度相关的模型。它利用简单(序列)语言模型来处理高度结构化的对象检测任务。然而,它仅限于视觉任务的输出可以手动表示为一个短的离散序列的场景,这对于视觉任务来说是很少的。在[33]中,作者提出了一种Transramer模型,该模型使用语言模型对表示为稀疏离散余弦变换码的图像输出进行建模。然而,本文只显示了“歧视性”任务的定性结果。此外,与我们的模型相比,Transframer更不灵活和强大,因为它依赖于预定义的固定变换,而UViM使用强大的端到端方法学习离散表示。
6 结论和讨论
UViM是一种视觉建模方法,其雄心勃勃的目标是用一种技术统一不同的视觉任务。我们得到的模型由两个部分组成:一个自回归语言模型(用于建模复杂的结构化输出)和一个有助于有效处理高维输出的简单前馈基础模型。根据经验,我们确认UViM能够以统一的方式处理不同的视觉任务,同时获得竞争性的结果。我们的任务包括语义场景理解(全景分割)、条件生成图像建模任务(彩色化)和3D场景预测(深度预测)。
社会影响:通用方法,如UViM,有一天可能会导致机器学习在需要先前重要领域知识的环境中得到更广泛的应用,从而促进模型的误用或无意的错误指定。特别是当模型用于产生大量输出时,要控制这些输出保持在安全范围内并了解其在部署时的影响就非常困难。
我们认为UViM是计算机视觉通用学习方法的一个勇敢的新原型。因此,它仍有许多需要进一步研究的粗糙边缘。我们还不完全了解如何学习最佳指导代码。根据经验,我们观察到最终结果对第一阶段代码学习参数敏感。例如,在我们的实验中,256的代码长度似乎总体上优于16和1024;或者在代码的训练过程中向代码添加丢弃导致更好的最终模型。我们希望未来的研究能够更好地理解如何建立对指导准则的学习,而不仅仅是单纯的经验观察。另一个方面是计算和效率,这对于两阶段学习方法来说可能更难控制。可能需要进行更多的研究,以找到能够导致更有效训练程序的设计选择。
网友评论