CoCa: Contrastive Captioners are Image-Text Foundation Models
https://arxiv.org/abs/2205.01917
B站上李沐老师他们有讲解
ImageNet最新水平
探索大规模预训练的基础模型在计算机视觉中具有重要意义,因为这些模型可以快速转移到许多下游任务。本文提出了对比字幕器(CoCa),这是一种极简设计,用于结合对比损失和字幕损失预处理图像-文本编码器-解码器基础模型,从而将模型能力包含在对比方法(如CLIP)和生成方法(如SimVLM)中。与所有解码器层都注意编码器输出的标准编码器-解码器Transformer不同,CoCa在解码器层的前半部分中省略了交叉注意以编码单峰文本表示,并将交叉注意图像编码器的剩余解码器层级联以用于多模态图像文本表示。我们在单峰图像和文本嵌入之间应用对比损失,以及在自回归预测文本标记的多模态解码器输出上应用字幕损失。通过共享相同的计算图,可以以最小的开销高效地计算两个训练目标。CoCa通过将所有标签简单地视为文本,无缝统一表示学习的自然语言监管,在网络规模的替代文本数据和注释图像上进行端到端和从头开始的预处理。根据经验,CoCa在广泛的下游任务(包括视觉识别(ImageNet、Kinetics-400/600/700、Moments in Time)、跨模态检索(MSCOCO、Flickr30K、MSR-VTT)、多模态理解(VQA、SNLI-VE、NLVR2)和图像字幕(MSCOCO、NoCaps))上通过零样本转移或最小的任务特定适应实现了最先进的性能。值得注意的是,在ImageNet分类上,CoCa获得了86.3%的零样本top1准确率,使用冻结编码器和学习的分类头获得了90.6%,使用微调编码器获得了ImageNet上最新的91.0%的top1准确度。
I
网友评论