Training-Free Structured Diffusion Guidance for Compositional Text-to-Image Synthesis
用于Compositional文本到图像合成的无训练结构化扩散指导
ICLR 2023
https://arxiv.org/abs/2212.05032
https://github.com/weixi-feng/structured-diffusion-guidance
一句话总结:一种将语言结构融合到合成(compositionality)文本到图像生成的扩散引导中的方法。
https://openreview.net/forum?id=PUIqjT4rzq7
ICLR2023 评审意见:
本文介绍了一种改进文本到图像扩散模型中属性绑定的方法,并将其应用于改进公共稳定扩散模型。本文还介绍了两个基准数据集来评估其方法。总体而言,所有评审人员都赞赏问题陈述的新颖性,该方法不需要新的训练数据,以及用于评估的基准数据集的引入。审稿人提出了几个问题,这些问题主要是在反驳期间通过对论文的修改来解决的,包括颜色以外的属性的结果、场景图的结果以及通过GLIP进行的自动评估。剩下的主要问题是用户研究的问题(由ZtBV评审员提出),以及所提出的方法仅比基线模型提供了相对较小的改进。审查员5ZP1还担心作者在反驳期间对论文进行了过多的编辑。AC与评审员5ZP1和ZtBV会面,以更深入地讨论本文。在讨论中,我们得出结论,作者在反驳期间所做的修改并不令人担忧,而且确实加强了论文。两位评论者都赞扬了论文背后的总体想法,以及所提出的方法不需要任何额外的训练数据的事实。该文件的主要缺点仍然是与基线相比,其改进幅度相对较小。此外,评审员ZtBV对表1中的用户研究提出了一个重要问题。该论文指出,作者在进行用户研究之前“过滤掉20%的最相似的图像对”。首先,这忽略了如何识别“相似图像对”的重要细节。其次,假设相似的图像可能会导致联系(正如作者在回应中所说),这夸大了表1中两种方法之间的差异。这可以通过(a)对所有图像对,甚至类似的图像对运行用户研究来解决;或(b)在表1(赢/输/平/相似图像)中增加一列,以更准确地了解模型的相对性能。总的来说,AC认为该论文的新颖性超过了其相对于基线方法的相对较小的改进。所提出的方法很容易适应其他模型,更重要的是,它提供了一组有趣的新想法,可能会引发有趣的对话,并在社区中开展后续工作。评审员5ZP1和ZtBV同意这一观点,并同意接受该论文将有利于ICLR。强烈鼓励作者在准备该论文的相机准备版本时考虑到审稿人的反馈,特别是上面讨论的表1中的用户研究问题。
AC评审员会议总结:AC会见了审查员5ZP1和ZtBV。我们在审查过程中讨论了论文编辑的作用,并得出结论,对本文的补充并不令人担忧。我们还讨论了如何权衡该论文的新颖性与稳定扩散的小改进,并得出结论,新颖性超过了边际实验收益。我们还讨论了表1中用户研究的问题,并得出结论,这主要是一个更好的表述问题,而不是一个核心的方法缺陷。
为什么不提高分数的理由:所提出的方法是新颖和有趣的,但与基线相比有相当小的增益。
为什么不降低分数的理由:本文解决了文本到图像扩散模型的一个重要问题,提出了一种改进方法,并进行了大量实验验证了其方法。这篇论文解决了一个有趣的问题,没有明显的缺陷或错误。
摘要:大规模扩散模型在文本到图像合成(T2I)任务上取得了最先进的结果。尽管他们有能力生成高质量但富有创意的图像,但我们观察到,归因绑定和合成能力仍然被认为是主要的挑战性问题,尤其是当涉及多个对象时。在这项工作中,我们改进了T2I模型的合成技巧,特别是更准确的属性绑定和更好的图像合成。为此,我们基于扩散T2I模型中操纵交叉注意层的可控益处,将语言结构与扩散引导过程结合起来。我们观察到,交叉注意力层中的键和值具有与对象布局和内容相关的强语义。因此,我们可以通过基于语言见解操纵交叉注意力表示来更好地保存生成的图像中的组成语义。基于SOTA T2I模型的稳定扩散,我们的结构化交叉注意力设计是高效的,不需要额外的训练样本。我们在定性和定量结果方面取得了更好的合成技能,从而在头部用户对比研究中取得了5-8%的优势。最后,我们进行了深入的分析,以揭示错误图像合成的潜在原因,并证明生成过程中交叉注意层的益处。
1 简介
文本到图像合成(T2I)是在给定文本提示作为输入的情况下生成自然和忠实的图像。最近,通过极其大规模的视觉语言模型,如DALL-E 2(Ramesh等人,2022)、Imagen(Saharia等人,2022年)和Parti(Yu等人,2022年),生成的图像的质量有了显著提高。特别是,Stable Diffusion(Rombach等人,2022)是最先进的开源实现,在对数十亿文本图像对进行训练后,显示出优异的评估指标增益。
除了生成高保真图像外,将多个对象组合成一个连贯场景的能力也是必不可少的。给定来自用户端的文本提示,T2I模型需要生成包含文本中提到的所有必要视觉概念的图像。实现这种能力需要模型从提示中理解完整的提示和个别的语言概念。因此,该模型应该能够组合多个概念并生成从未包含在训练数据中的新对象。在这项工作中,我们主要注意于改进生成过程的合成性,因为在复杂场景中实现具有多个对象的可控和广义文本到图像合成至关重要。
属性绑定是现有大规模基于扩散的模型的关键组成挑战(Ramesh等人,2022;Saharia等人,2022)。尽管在同一场景中生成多个对象方面有所改进,但当出现“白色建筑前的棕色长椅”等提示时,现有模型仍然会失败(见图1)。输出图像包含“白色长椅”和“棕色建筑物”,这可能是由于强烈的训练集偏见或不精确的语言理解。从实践的角度来看,解释和解决这样的两个对象绑定挑战是理解具有多个对象的更复杂提示的主要步骤。因此,如何将属性绑定到正确的对象是更复杂和可靠的组合生成的基本问题。虽然之前的工作已经解决了合成T2I(Park等人,2021),但我们的工作处理了具有反事实属性的开放域前景对象,例如颜色和材质。
即使最先进的(SOTA)T2I模型是在大规模文本图像数据集上训练的,它们仍然可能会受到类似于上述示例的简单提示的不准确结果的影响。因此,我们有动机寻求一种替代的、数据高效的方法来提高合成性。我们观察到,属性-对象关系对可以作为文本跨度从句子的解析树中免费获得。因此,我们建议将提示的结构化表示(如选区树或场景图)与扩散引导过程相结合。文本跨度仅描绘整个图像的有限区域。传统上,我们需要诸如坐标的空间信息(Yang等人,2022)作为输入,以将它们的语义映射到相应的图像中。然而,T2I模型无法解释坐标输入。相反,我们利用注意力图在训练的T2I模型中提供自由标记区域关联的观察结果(Hertz等人,2022)。通过修改交叉注意层中的键值对,我们设法将每个文本跨度的编码映射到2D图像空间中的注意区域。
在这项工作中,我们在稳定扩散中发现了类似的观察结果(Rombach等人,2022),并利用该属性构建结构化交叉注意力引导。具体来说,我们使用语言解析器从提示中获得层次结构。我们提取所有级别的文本跨度,包括视觉概念或实体,并分别对它们进行编码,以使属性对象对彼此分离。与使用单个文本嵌入序列作为指导相比,我们通过多个序列来提高合成性,其中每个序列都强调结构化语言表示中来自多个层次的实体或实体的联合。我们将我们的方法称为结构化扩散指导(StructureDiffusion)。我们的贡献可以概括为三个方面:
•我们提出了一种直观有效的方法,通过使用语言输入的结构化表示来改进合成文本到图像的合成。我们的方法高效且无需额外的训练样本,无需训练。
•实验结果表明,我们的方法在生成的图像中实现了更准确的属性绑定和合成。我们还提出了一个名为属性绑定对比度集(ABC-6K)的基准来衡量T2I模型的组成技能。
•我们进行了广泛的实验和分析,以确定不正确属性绑定的原因,这为提高文本到图像合成的忠实性和合成性指明了未来的方向。
5相关工作
文本到图像合成
扩散模型是一种新兴类型的模型,可以通过更稳定的训练过程生成高质量的图像(Song&Ermon,2019;Ho等人,2020)。Rombach等人(2022)提出用自动编码器对图像进行编码,然后利用扩散模型在潜在空间中生成连续的特征图。Stable Diffusion Rombach等人(2022)采用了类似的架构,但使用固定的CLIP文本编码器在大规模图像文本数据集上进行了训练。Imagen(Saharia等人,2022)通过使用一个冻结的T5编码器(Raffel等人,2020),一个专用的大型语言模型,解决了语言理解的重要性。我们主要注意扩散模型,并对稳定扩散(Rombach等人,2022),即SOTA开源T2I模型进行了实验。
成分生成
合成或可控生成是T2I模型理解和解开生成过程中的基本概念的重要方向。由于文本输入相对较弱,先前的工作利用布局或场景图来增强合成性(Johnson等人,2018;Hong等人,2018年;Yang等人,2022年;Gafni等人,2022)。最近,Liu等人(2022)提出了一种方法,其中通过从一组平行的扩散过程中添加估计分数来实现概念连接。相比之下,我们的方法可以直接合并到交叉注意层中,计算开销要小得多。
扩散指导
Ho&Salimans(2022)开发了无分类器指导,其中在条件和无条件输入下联合训练单个扩散模型。大多数大规模SOTA模型,包括自回归模型,都采用了这种技术来获得灵活和改进的条件合成结果(Rombach等人,2022;Ramesh等人,2022年;Gafni等人,2022,Yu等人,2012;Saharia等人,2022)。Hertz等人(2022)在Imagen上发现了交叉注意图的独特益处(Saharia等人,2022),并通过操纵这些图实现了结构保护图像编辑。我们在稳定扩散(Rombach et al.,2022)中观察到类似的益处,但为细粒度合成文本到图像生成提出了不同的算法。
6结论
在这项工作中,我们提出了一种用于合成文本到图像生成的无训练方法。首先,我们观察到现有的大规模T2I扩散模型在合成图像合成中仍然存在困难。我们通过明确注意具有正确属性的绑定对象来解决这个问题。第二,我们提出了将语言结构纳入交叉注意力层的结构化扩散指导。我们提出了两种简单的技术来将结构化编码与注意力图对齐。使用我们对稳定扩散的结构化指导,可以更准确地绑定属性,同时保持整体图像质量和多样性。此外,我们通过对冻结的语言编码器和注意力图进行深入分析来证明我们的方法是正确的。随着我们引入了一种改进图像合成的隐式方法,未来的方向可能会探索在不丢失组件的情况下生成合理图像布局的显式方法。为图像合成性开发更可靠的样本级自动评估度量对于大规模评估和模型比较也是至关重要的。我们希望我们的方法能够加速基于扩散的文本到图像模型的可解释和原则性方法的发展。
相关工作
文本到图像合成
文本图像合成的模型主要有三种类型:基于GAN的模型(Tao等人,2022;Zhu等人,2019;Li等人,199;Fu等人,2020;El-Nouby等,2019)、自回归模型(Gu等人,2022b;Lee等人,2022-;Ding等人,2022.)和扩散模型(Liu等人,2021b;Nichol等人,2021;Ruiz等人,1922)。Zhang等人(2021)提出了XMC-GAN,这是一种单阶段GAN,它利用了图像-图像、图像-文本和区域-标记对之间的多重对比损失。最近,LAFITE(Zhou等人,2022)通过使用CLIP构建伪图像-文本特征对,实现了无语言训练(Radford等人,2021)。对于自回归模型,DALL-E采用VQ-VAE将图像补丁量化为标记,然后使用Transformer顺序生成离散标记(Ramesh等人,2021)。Parti(Yu等人,2022年)和Make-A-Scene(Gafni等人,2022)都利用无分类器指导来提高可控性。对于扩散模型,Gu等人(2022a)将VQ-VAE与扩散模型连接起来,并表明扩散过程可以在离散的潜在空间中运行。DALL-E 2采用CLIP文本编码器,以便扩散过程将文本特征转化为图像(Ramesh等人,2022)。
视觉和语言的结构化表示
推断跨语言和视觉的共享结构是统一这些模式的长期追求(Schuster等人,2015;Johnson等人,2018;Zhong等人,2020;Lou等人,2022)。Wu等人(2019)在视觉语义嵌入框架中利用来自语义解析的结构来促进嵌入学习。Wan等人(2021)提出了一项新任务,其目标是学习语义解析和图像区域之间的联合结构。据我们所知,我们的工作是T2I中首次尝试将语言结构纳入图像合成过程。
扩散指导
为了将无条件扩散模型转换为类条件扩散模型,Dhariwal&Nichol(2021)将每个步骤的噪声图像输入分类器,并计算分类损失。损失可以被反向传播到图像空间,以提供从条件概率的对数边缘化分数估计的梯度。同样,在T2I子域中,Liu等人(2021b)和Nichol等人(2021)应用噪声CLIP模型来测量文本提示和噪声图像之间的余弦相似性。
B实施细节
在整个实验中,我们在Stable Diffusion v1.4上实现了我们的方法。对于我们的方法和稳定扩散之间的所有比较,我们固定种子以生成相同的初始高斯图,并使用PLMS采样的50个扩散步骤(Liu等人,2021a)。我们将指导尺度固定为7.5,如果没有另行规定,则在交叉注意层中对关键值矩阵进行加权。我们不会在文本输入中添加诸如“的照片”之类的手工提示。我们使用Stanza库(Qi et al.,2020)进行选区解析,如果未另行指定,则获取名词短语。
C注意力图的可视化
在本节中,我们展示了交叉注意力图的可视化,以支持第2节中的假设和主张。如图8所示,稳定扩散的注意力图和我们的方法在整个扩散过程中具有相似的空间分布和亮点。这一现象支持我们在第2.2节中的假设,即即使在每个交叉注意力层中有多个值,注意力图Mt也保持不变。我们可以在图9中观察到类似的现象,除了我们的方法加速了对“绿色”和“时钟”令牌的可解释注意的形成。
图8、9也证明了我们的说法,即值表示丰富的文本语义,并作为内容映射到图像空间。例如,我们的方法将图8中的提示解析为“狭长的黄色厨房”和“黑白地砖”,分别对它们进行编码和对齐以形成V。根据经验,这些操作分别增强了“黄色”和“黑色和白色”的语义,并减轻了“黄”与“黑白”的混合。这解释了与稳定扩散相比,我们的图像中颜色泄漏的消失。尽管有人可能将泄漏归因于“黄色”标记的注意力分布不正确,但我们认为这不是关键原因。尽管我们的方法中的“黄色”注意图略微突出了“地砖”区域,但我们无法在生成的图像中观察到任何黄色。这证明了不准确的注意力分布对最终图像内容的贡献很小。
此外,我们还在图10中显示,使用多个键可以纠正图像布局,以减轻丢失的对象问题。第三行中的绵羊式注意力图验证了我们提出的概念连词方法的变体
D消融研究
D.1属性绑定的案例研究
在这里,我们提供了一个案例研究,以证明错误属性绑定的两个根本原因。第一种是基于因果注意掩码的上下文化令牌嵌入。如图11左侧所示,我们首先用一个共享组件对两个不同的提示进行编码,例如“一个红苹果”和“一个绿袋子和一个红的苹果”。使用朴素提示的编码序列,我们只能获得红苹果的图像。有理由假设黄绿色区域是从真实的苹果图像中学习的自然结果。然后,我们用来自更复杂提示的同一标记的嵌入替换天真提示的标记。我们使用与初始化相同的高斯噪声,并生成带有实心绿色区域(在黄色边界框中)的非自然图像。这一结果证明了标记“红色”之前被“绿色”的语义污染,并解释了一些存在颜色泄漏问题的图像(例如,图1)。
第二个原因是注意力图不准确。在图11的右侧,我们可视化了来自下采样和上采样块的五个交叉注意力图(跨注意力头部的平均值)。注意力图显示了与标记“鸟”相对应的显著区域。这些图显示了最终图像中鸟所在的左下角突出显示的区域。尽管有可解释的结构,但这些图也显示出在所有五层中熊嘴区域周围的显著性。因此,不准确的注意力图导致最终图像中的熊嘴呈喙状。
D.2解析器比较
在本小节中,我们比较了使用选区解析器和场景图解析器获取文本跨度和生成图像之间的差异。表3比较了使用选区解析器和场景图解析器提取的文本跨度。示例0显示,对于CC-500提示,两个解析器的结果都相同。对于示例1-4,场景图解析器生成的跨度比选区解析器多。我们注意到,句子中间的概念在这些跨段中出现的频率高于其他名词标记,如例3中的“egg”或“red sauce”。这种不平衡可能解释了图12(左下)中“蛋”看起来更突出的原因。另一方面,“橙色切片”更经常出现在选区分析结果中,从而在生成的图像中产生更好的“橙色”纹理。在示例2中可以进行类似的观察,其中选区解析器更经常强调“绿色极点”。
E限制和未来工作
我们的工作有几个局限性。首先,我们的方法依赖于可能不完美的外部解析函数。我们采用常用的Stanza Library Qi等人(2020)进行选区分析。解析功能可以用更高级的基于学习的方法来代替以进行改进。其次,我们的方法主要侧重于组合T2I,忽略了任何风格描述。解析机制可以将风格描述分类,例如“在梵高风格中”作为一个单独的名词短语,不能在图像空间中扎根。未来的工作可能侧重于设计明确的方法,使用空间信息作为输入将属性与对象关联起来。例如,如何使文本到图像合成模型以有限的微调或快速调整步骤解释坐标信息将是一个有吸引力的方向。
网友评论