美文网首页
Scaling Language-Image Pre-train

Scaling Language-Image Pre-train

作者: Valar_Morghulis | 来源:发表于2022-12-02 11:37 被阅读0次

原文:https://arxiv.org/abs/2212.00794

作者:Yanghao Li, Haoqi Fan, Ronghang Hu, Christoph Feichtenhofer, Kaiming He

单位:Meta AI, FAIR

我们提出了快速语言图像预训练(FLIP),这是一种简单而有效的训练CLIP的方法。我们的方法在训练过程中随机屏蔽并去除大部分图像块。掩蔽允许我们在相同的时钟时间内从更多的图像-文本对中学习,并以相似的内存占用率对比每次迭代的更多样本。这在准确性和训练时间之间产生了有利的权衡。在我们对4亿个图像文本对的实验中,FLIP比无掩蔽基线提高了准确性和速度。在大量的下游任务上,FLIP显著优于在相同数据上训练的CLIP对手。在加速的推动下,我们探索了增加模型大小、数据大小或训练长度的缩放行为,并报告了令人鼓舞的结果和比较。我们希望,我们的工作将促进未来关于扩展视觉语言学习的研究

相关文章

网友评论

      本文标题:Scaling Language-Image Pre-train

      本文链接:https://www.haomeiwen.com/subject/bxpefdtx.html