Universal Guidance for Diffusion Models
Feb 2023
Arpit Bansal, Hong-Min Chu, Avi Schwarzschild, Soumyadip Sengupta, Micah Goldblum, Jonas Geiping, Tom Goldstein
[University of Maryland, University of North Carolina, New York University]
https://arxiv.org/abs/2302.07121
https://github.com/arpitbansal297/universal-guided-diffusion
摘要:典型的扩散模型被训练为接受特定形式的条件,最常见的是文本,如果不进行再训练,就不能以其他模式为条件。在这项工作中,我们提出了一种通用引导算法,该算法使扩散模型能够由任意引导模态控制,而无需重新训练任何特定用途的部件。我们表明,我们的算法成功地生成了具有引导功能的高质量图像,包括分割、人脸识别、对象检测和分类器信号。
1.引言
扩散模型是创建数字艺术和图形的强大工具。他们的成功很大程度上源于我们能够仔细控制他们的输出,为每个用户的个人需求定制结果。今天的大多数模型都是通过条件来控制的。有了条件,扩散模型从头开始构建,以接受用户的特定输入模式,无论是描述性文本、分割图、类标签等。虽然条件是一个强大的工具,但它会导致模型被束缚在单个条件模式上。如果需要另一种模式,则需要训练新的模型,通常是从头开始。不幸的是,高昂的训练成本让大多数用户望而却步。
控制模型输出的更灵活的方法是使用指导。在这种方法中,扩散模型充当通用图像生成器,不需要理解用户的指令。用户将此模型与一个指导功能配对,该功能可测量是否满足某些标准。例如,可以引导模型最小化生成的图像和用户选择的文本描述之间的CLIP分数。在图像创建的每次迭代过程中,迭代都会沿着引导函数的梯度向下推,从而使最终生成的图像满足用户的标准。
在本文中,我们研究了能够将任何现成模型或损失函数用作扩散指导的指导方法。由于无需重新训练或修改即可使用引导功能,因此这种引导形式是通用的,因为它使扩散模型能够适应几乎任何目的。
从用户的角度来看,指导优于条件,因为单个传播网络被视为一个基础模型,可以在许多用例中提供通用覆盖,无论是普通的还是定制的。不幸的是,人们普遍认为这种方法不可行。虽然早期的扩散模型依赖于分类器指导(Dhariwal&Nichol,2021),但社区很快转向了无分类器方案(Ho&Salimans,2022),该方案要求模型从零开始在类标签上训练,类标签上具有无法更改的特定冻结本体(Nichol等人,2021;Rombach等人,2022;Bansal等人,2022.)。
使用引导的困难源于扩散采样过程所使用的噪声图像与训练引导模型的干净图像之间的域偏移。当该差距闭合时,可以成功执行引导。例如,Nichol等人(2021)成功地使用了CLIP模型作为指导,但只有在使用噪声输入从头开始重新训练CLIP之后。嘈杂的再训练弥补了领域的差距,但其财务和工程成本非常高。为了避免额外的成本,我们研究了通过改变抽样方案而不是模型来缩小这一差距的方法。
为此,我们的贡献总结如下:
•我们提出了一种算法,能够对扩散模型进行通用指导。我们提出的采样器仅基于去噪图像而非噪声潜在状态来评估引导模型。通过这样做,我们缩小了困扰标准指导方法的领域差距。该策略为最终用户提供了灵活的灵活性,可以同时使用多种指导模式,甚至多种模式。基础扩散模型保持不变,无需任何微调。
•我们证明了我们的方法对各种不同约束的有效性,如分类器标签、人类身份、分割图、来自对象检测器的注释以及由逆线性问题产生的约束。
5.限制
由于几个原因,使用通用引导生成通常比标准条件生成慢。根据经验,需要在每个噪声水平t处多次迭代去噪,以生成具有复杂引导功能的高质量图像。然而,我们的算法的时间复杂度与递归步骤k的数量成线性比例,这在k较大时减慢了图像生成。此外,正如主论文中所展示的,在某些场景中需要反向引导,以帮助生成符合给定约束的图像。计算后向引导需要使用多步梯度下降内环执行最小化。虽然适当选择基于梯度的优化算法和学习速率表显著加快了最小化的收敛速度,但当引导函数本身是一个非常大的神经网络时,计算反向引导所需的时间不可避免地变长。最后,我们注意到,为了获得最佳结果,必须为每个引导网络单独选择采样超参数。
6.结论
在本文中,我们提出了一种通用的引导算法,该算法能够在固定基础扩散模型的基础上利用任何离机引导功能生成引导图像。我们的算法只要求引导函数和损失函数是可微的,并且避免了任何重新训练,以使引导函数或基础模型适应特定类型的提示。我们在复杂引导(包括分割、人脸识别和目标检测系统)上展示了我们的算法的有希望的结果。甚至可以组合使用多种引导功能
网友评论