美文网首页
LiT:锁定图像-调整文本的Zero-Shot迁移

LiT:锁定图像-调整文本的Zero-Shot迁移

作者: Valar_Morghulis | 来源:发表于2023-02-27 09:15 被阅读0次

LiT: Zero-Shot Transfer with Locked-image text Tuning

Nov 2021

CVPR 2022

Xiaohua Zhai, Xiao Wang, Basil Mustafa, Andreas Steiner, Daniel Keysers, Alexander Kolesnikov, Lucas Beyer

[Google Research, Brain Team, Zurich]

https://arxiv.org/abs/2111.07991

https://openaccess.thecvf.com/content/CVPR2022/html/Zhai_LiT_Zero-Shot_Transfer_With_Locked-Image_Text_Tuning_CVPR_2022_paper.html

https://github.com/google-research/vision_transformer#lit-models

本文提出了对比调整,这是一种简单的方法,它使用对比训练来对齐图像和文本模型,同时仍然利用它们的预训练。在我们的实证研究中,我们发现锁定的预训练图像模型与未锁定的文本模型效果最佳。我们将这种对比调整的实例称为“锁定图像调整”(Locked image tuning,LiT),它只是教导文本模型从预先训练的图像模型中读出新任务的良好表示。LiT模型获得了零样本迁移到新视觉任务(如图像分类或检索)的能力。建议的LiT广泛适用;它使用三种不同的图像文本数据集,通过多种预训练方法(有监督和无监督)和多种架构(ResNet、Vision Transformers和MLP Mixer)可靠地工作。使用基于Transformer的预训练ViT-g/14模型,LiT模型在ImageNet测试集上实现了85.2%的零样本迁移精度,在具有挑战性的分布外ObjectNet测试集中实现了82.5%。

This paper presents contrastive-tuning, a simple method employing contrastive training to align image and text models while still taking advantage of their pre-training. In our empirical study we find that locked pre-trained image models with unlocked text models work best. We call this instance of contrastive-tuning "Locked-image Tuning" (LiT), which just teaches a text model to read out good representations from a pre-trained image model for new tasks. A LiT model gains the capability of zero-shot transfer to new vision tasks, such as image classification or retrieval. The proposed LiT is widely applicable; it works reliably with multiple pre-training methods (supervised and unsupervised) and across diverse architectures (ResNet, Vision Transformers and MLP-Mixer) using three different image-text datasets. With the transformer-based pre-trained ViT-g/14 model, the LiT model achieves 85.2% zero-shot transfer accuracy on the ImageNet test set, and 82.5% on the challenging out-of-distribution ObjectNet test set.

相关文章

  • HTML 图像实例

    1、背景图片 2、排列图片-与文本的对齐方式 3、调整图像尺寸 4、为图片显示替换文本 5、制作图像链接 6、创建...

  • Learning deep representations of

    Abstract 最先进的zero-shot视觉识别将学习视为图像和补充信息的联合问题。其中对视觉特征来说最有效的...

  • [Paper Weekly]风格迁移算法:A Neural Al

    今天介绍一个好玩的东西--图像风格迁移,来自2015年图像风格迁移开山论文《A Neural Algorithm ...

  • 项目三:基于内容的图像检索

    一、图像检索 图像检索两个框架:基于文本和基于内容 1.基于文本  常规的图像检索框架,图像由文本注释,然后通过文...

  • SUPERVISION EXISTS EVERYWHERE: A

    近年来,大规模对比语言图像预训练(CLIP)因其令人印象深刻的zero-shot识别能力和良好的下游任务转移能力而...

  • 神经风格迁移

    前言 图像的风格迁移是计算机视觉领域最有趣的应用之一,用深度学习实现图像的风格迁移,可以分为实现神经风格迁移算法和...

  • Visio技巧

    数据模型图默认锁定的,可以先解除锁定 调整锁定的形状的大小 某些形状和图层可能已锁定,因此不能调整它们的大小;但是...

  • TensorFlow 图像处理

    1.统一调整图像尺寸 1.图像导出 2.调整图像大小 3.图像裁剪、填充 4.图像翻转 5.图像色彩调整 6.标注...

  • QLabel,QRadioButton,QCheckBox

    用来显示文本或者图像 1.setPixmap() 图像 setText() 文本 setMovie() 动画 se...

  • PS学习笔记:基础篇

    一、调整亮度 1. 图像 > 调整 > 亮度/对比度 (粗略调整) 2. 图像 > 调整 > 色阶 (细调整) ...

网友评论

      本文标题:LiT:锁定图像-调整文本的Zero-Shot迁移

      本文链接:https://www.haomeiwen.com/subject/chjhldtx.html