最近,扩散模型改进了生成图像生成,从而在各种任务中获得了出色的视觉质量。随着强大的多模态模型(如CLIP)的出现,“AI-Art”领域领域获得了前所未有的增长。通过将语音合成模型与图像合成模型相结合,建立了所谓的“提示工程”(prompt-engineering),即使用精心挑选和组合的句子,在生成的图像中实现一定的视觉风格。本文提出了一种基于检索增强扩散模型(retrievalaugmented diffusion models (RDMs))的替代方法。在RDMs中,在每个训练实例的训练过程中,从外部数据库中检索一组最近的邻居,扩散模型以这些信息样本为条件。在推断(采样)期间,本文用一个更专门的数据库替换检索数据库,该数据库只包含特定视觉风格的图像。这提供了一种新奇的方式,可以在训练后“提示”一般训练过的模型,从而指定特定的视觉风格。我们的实验表明,这种方法优于在文本提示中指定视觉风格。本文代码在https://github.com/CompVis/latent-diffusion开源代码和模型权重。
特别是在文本到图像合成方面,扩散模型结果也可以用来创建艺术图像。因此,这样的模型有潜力帮助艺术家创造新的内容,并为AI生成艺术领域的巨大增长做出了贡献。然而,这些模型是计算密集型的。因此,在目前的工作中,我们建立在检索-增强扩散模型(RDMs)[3,2]上,该模型可以通过使用大型图像数据库的相对较小的生成模型,来显著降低训练的计算复杂度:虽然检索方法提供(局部)内容,但模型现在可以专注于基于该内容学习场景的组成。在这个扩展的摘要中,我们显示RDMs生成艺术图像的能力,如图1所示。此外,通过使用CLIP[20]的联合文本图像表示空间,我们可以用自然语言控制生成过程,并演示了通过从WikiArt[24]和ArtBench[16]构建的高度专门化数据库中检索邻居来获得对输出视觉风格的细粒度控制。最后,我们还将模型权重公开,允许艺术家补充、扩展和评估他们的工作,并调查这些模型的固有偏见
检索增强扩散模型(RDM)是条件潜在扩散模型[12,22]和图像数据库的组合,数据库是模型的显式部分,并且(不可训练的),对于给定的查询x,采用一定的采样策略获取的一个子集如最近邻算法。这样,对于每个查询(即训练示例),它的k个最近邻作为一个集合返回,其中距离在CLIP[20]图像嵌入空间中衡量。然后通过交叉注意机制将这些最近邻居的CLIP嵌入喂到给模型[28,22]。培训目标如下
其中φCLIP为CLIP图像编码器,E(x)为[22,3]中部署的自动编码模型的编码器。训练结束后,我们将原始RDM的替换为来自art数据集,以获得事后模型修改,并且实现zero-shot风格化。此外,我们可以利用[3]中提出的CLIP[20]的共享文本图像特征空间,用文本提示来指导合成过程。因此,我们得到了一个仅对图像数据进行训练的风格可控的生成模型。
实验1
为了展示RDM的通用的zero-shot风格化潜力,我们在ImageNet[8]上训练RDM的精确副本,从OpenImages[15]构建。对于推理,我们通过使用基于WikiArt[24]数据集的数据库Dstyle实现了风格化。
虽然我们的模型只在ImageNet上进行了训练,但它可以推广到这个新数据库,并能够生成描述文本提示所定义的内容的类似艺术品的图像。为了进一步强调这种事后数据库交换的效果,我们展示了使用相同过程但使用(最下面一行)获得的示例
实验2
我们提出了一个更大的模型,使用来自LAION-2B-en[25,1]的100M样本进行训练扩散模型,同时使用更多样化的数据库,其中包含该数据集中剩余的1.9B样本。该模型的样本如图1所示。通过我们将该数据库与ArtBench数据集[16]的不同的、特定于风格的子集交换,我们表明RDM可以进一步用于细粒度的风格化,并且无需为此风格化任务进行训练。
许多功能强大的模型通过添加后缀“…以…的风格”作为特定的提示语句。通过在推理过程中使用从ArtBench数据集[16]获得的特定于风格的数据,我们在这里提出了一种替代方法。图3为提示语句“白天和黑夜争夺时间的支配”和LAION-RDM的结果。每一列都包含用特定于风格的ArtBench-子集替换Dtrain生成的示例。
网友评论