Unleashing Text-to-Image Diffusion Models for Visual Perception
Mar 2023
Wenliang Zhao*, Yongming Rao*, Zuyan Liu, Benlin Liu, Jie Zhou, Jiwen Lu
[Tsinghua University, University of Washington]
https://arxiv.org/abs/2303.02153
https://github.com/wl-zhao/VPD
https://vpd.ivg-research.xyz
扩散模型(DM)已成为生成模型的新趋势,并显示出强大的条件合成能力。其中,在大规模图像-文本对上预训练的文本-图像扩散模型可以通过可定制的提示高度控制。与关注低级属性和细节的无条件生成模型不同,由于视觉语言预训练,文本到图像扩散模型包含更多高级知识。在本文中,我们提出了VPD(带有预训练扩散模型的视觉感知),这是一个新的框架,在视觉感知任务中利用预训练文本到图像扩散模型的语义信息。我们没有在基于扩散的管道中使用预训练的去噪自动编码器,而是将其作为主干,并旨在研究如何充分利用所学知识。具体来说,我们使用适当的文本输入提示去噪解码器,并使用适配器细化文本特征,从而更好地与预训练阶段对齐,并使视觉内容与文本提示交互。我们还建议利用视觉特征和文本特征之间的交叉注意力图来提供明确的指导。与其他预训练方法相比,我们表明,使用所提出的VPD,视觉语言预训练扩散模型可以更快地适应下游视觉感知任务。在语义分割、参考图像分割和深度估计方面的大量实验证明了我们方法的有效性。值得注意的是,VPD在NYUv2深度估计上达到0.254 RMSE,在RefCOCO值参考图像分割上达到73.3%oIoU,在这两个基准上建立了新的记录。
![](https://img.haomeiwen.com/i13727053/bcad95a3f896ba42.png)
![](https://img.haomeiwen.com/i13727053/bac3dec644861c24.png)
![](https://img.haomeiwen.com/i13727053/53481b989e7cc318.png)
![](https://img.haomeiwen.com/i13727053/42f8382bd65865d0.png)
![](https://img.haomeiwen.com/i13727053/5aa682afc5e950aa.png)
1 引言
最近,大型文本到图像扩散模型[43,40]在生成具有高度可定制性的多样化和高保真图像方面表现出惊人的能力[43,19,36,6],吸引了研究界和公众的日益注意。通过利用图像-文本对的大规模数据集(例如,LAION5B[46]),文本-图像扩散模型显示出良好的缩放能力。大规模文本到图像扩散模型能够生成具有丰富纹理、多样内容和合理结构的高质量图像,同时具有合成和可编辑语义。这一现象潜在地表明,大型文本到图像扩散模型可以从海量图像-文本对中隐式地学习高级和低级视觉概念。此外,最近的研究[19,36]还强调了文本到图像扩散模型中潜在视觉特征和文本提示中的相应单词之间的明确相关性。
文本到图像扩散模型令人信服的生成语义和合成能力促使我们思考:是否有可能提取大型扩散模型学习的视觉知识用于视觉感知任务?
然而,解决这个问题并非易事。传统的视觉预训练方法旨在将输入图像编码为潜在表示,并使用诸如对比学习[18,10]和掩码图像建模[2,17]之类的借口任务或分类和视觉语言任务中的大量注释来学习表示。当从原始图像中提取语义知识时,预训练过程使得所学习的潜在表示自然适合于一系列视觉感知任务。相反,文本到图像模型被设计为基于文本提示生成高保真图像。文本到图像扩散模型将随机噪声和文本提示作为输入,旨在通过渐进去噪过程生成图像[43,20]。虽然在文本到图像生成任务和传统的视觉预训练机制之间存在显著的差距,文本到图像模型的训练过程还要求它们以隐式方式捕获图像的低级知识(例如,纹理、边缘和结构)以及来自不同和大规模图像-文本对的视觉和语言概念之间的高级语义关系。尽管在大型扩散模型中学习了丰富的表示,但如何为各种视觉感知任务提取这些知识,以及它是否能有益于视觉感知,仍然是未知的。
在本文中,我们研究了如何利用在文本中学习到的知识来进行视觉感知。与将知识从传统的预训练模型迁移到下游视觉感知任务相比,在扩散模型上执行迁移学习有两个明显的挑战:扩散管道和视觉感知任务之间的不兼容性,以及类似UNet[44]的扩散模型和流行的视觉主干之间的架构差异。为了应对这些挑战,我们引入了一个名为VPD的新框架,以适应视觉感知任务的预训练扩散模型。我们建议简单地使用自动编码器作为主干模型,直接使用自然图像而无噪声,并使用设计的提示执行单个额外的去噪步骤以提取语义信息,而不是使用逐步扩散管道。我们的框架基于流行的稳定扩散[43]模型,该模型使用UNet架构在学习的潜在空间中进行去噪过程。我们从UNet解码器中提取不同层次的特征,以构建输入图像的视觉表示。为了与预先训练的阶段保持一致并促进视觉内容和文本提示之间的交互,我们使用适当的文本输入提示去噪扩散模型,并使用适配器细化文本特征。此外,受先前关于扩散模型中提示词和视觉模式之间关系的研究的启发,我们建议利用视觉和文本特征之间的交叉注意力图来提供明确的指导。组合的内隐和外显引导可以被馈送到各种视觉解码器以执行视觉感知任务。图1概括了我们的主要思想。
我们在三个具有代表性的视觉感知任务上评估了我们的方法,包括:1)语义分割[58],需要理解高级和细粒度的视觉概念;2)参考图像分割[56,33],需要视觉语言建模的能力;3)深度估计[47],需要图像的低级和结构知识。借助于所提出的VPD,我们表明视觉语言预训练扩散模型可以是下游视觉感知任务的快速而强大的学习者。我们的方法在RefCOCO[56]参考图像分割和NYUv2[47]深度估计上分别达到73.3%oIoU和0.254 RMSE,在这两个基准上建立了新的最先进水平。配备了一个轻量级语义FPN[24]解码器,我们的模型在ADE20K[58]上实现了54.6%的mIoU,以相当的计算复杂度超过了监督预训练的ConvNeXt XL[29]模型。我们还表明,使用扩散任务预训练的模型可以在这个具有挑战性的基准上快速获得44.7%的mIoU,仅需4K迭代训练,优于现有的预训练方法。我们希望我们的研究能够为使用生成模型学习更通用的视觉表示提供一个新的视角,并激发关于桥接和统一图像生成和感知这一充满活力的研究领域的进一步研究。
2 相关工作
扩散模型。 扩散去噪概率模型,也称为扩散模型,已经成为一个新的主流生成模型家族,其显示出显著的合成质量和可控性。扩散模型背后的基本概念涉及训练去噪自动编码器以学习马尔可夫扩散过程的逆[48,20]。通过适当的重新参数化,扩散模型的训练目标可以表述为简单的加权MSE损失[20],这使得扩散模型与GAN[16]和VAE[23]相比享受更稳定的训练。然后,可以将扩散模型[49,26,30]的采样视为渐进去噪过程,这需要对去噪自动编码器进行多次评估。作为迈向基于扩散模型的高分辨率图像合成的一步,Rombach等人[43]提出了潜扩散模型(LDM),其在较低分辨率的潜空间上执行扩散,因此可以显著降低计算成本。他们还提出了通过交叉注意机制添加条件的通用解决方案[51]。这些进步允许在大规模数据集LAION-5B[46]上训练文本到图像的扩散模型,现在可以在著名的“稳定扩散”库中获得。[19]最近的研究发现,大型文本到图像扩散模型中存在明显的视觉文本相关性,这促使我们研究是否可以利用预先训练的知识来促进下游视觉感知任务。与先前将视觉感知任务重新表述为渐进去噪的基于扩散的框架[9,1]不同,我们使用在文本到图像生成上预训练的去噪自动编码器作为主干,并研究如何充分利用所学习的高级和低级知识,这只需要去噪自动编码的一次前向传递。
视觉预训练。 预训练和微调范式极大地推动了计算机视觉的发展,尤其是在难以收集标签的下游视觉感知任务中。最广泛使用的预训练是在大型图像分类数据集(如ImageNet[12])上的监督预训练。此外,自监督学习(如对比学习[7,18]和掩码图像建模[38,17])也被证明能够学习可迁移表示。在本文中,我们将证明大规模文本到图像生成也可以是视觉预训练的一种可能的替代方案。与专门为提取视觉数据的高级表示而设计的标准视觉预训练方法不同,在生成任务上训练的模型侧重于合成质量,并捕获更多低级线索。然而,我们的结果表明,由于预训练期间自然语言的存在,学习良好的文本到图像扩散模型包含足够的高级和低级知识,这也可以应用于下游视觉感知任务。
4 实验
局限性 虽然我们的方法显示了令人满意的性能,但我们承认VPD的计算成本目前相对较高。与明确设计用于平衡效率和准确性的识别模型不同,生成模型优先考虑合成质量,并且通常缺乏对复杂性的仔细考虑。尽管我们已经证明了从预先训练的文本到图像扩散模型中提取有价值的信息的潜力,但在我们当前的框架内无法解决cθ的高计算成本。我们认为,通过生成模型的更轻量化设计或专门用于生成和感知任务的更高效的架构,可以进一步提高VPD的复杂性和准确性权衡。
5 结论
在本文中,我们提出了一个名为VPD的新框架,以将预训练的文本到图像扩散模型的高级知识迁移到下游任务。我们已经提出了一些设计来鼓励视觉语言对齐,并隐式和显式地提示预先训练的模型。关于语义分割、参考图像分割和深度估计的大量实验表明,与具有各种视觉预训练范式的方法相比,VPD可以获得非常有竞争力的性能,并表现出更快的收敛性。我们还认为,文本引导的但不是扩散模型的生成模型[45,40,8]也可以适用于VPD,我们将其留给未来的工作。我们希望我们的努力能够阐明生成文本对图像预训练在视觉感知中的关键作用,并朝着视觉生成和感知任务的统一迈出一步。
网友评论