Mar 2023
Yang Song, Prafulla Dhariwal, Mark Chen, Ilya Sutskever
[OpenAI]
https://arxiv.org/abs/2303.01469
扩散模型在图像、音频和视频生成方面取得了重大突破,但它们依赖于迭代生成过程,该过程导致采样速度缓慢,并限制了其实时应用的潜力。为了克服这一限制,我们提出了一致性模型,这是一个新的生成模型家族,它在没有对抗性训练的情况下实现了高样本质量。它们支持设计的快速一步生成,同时仍允许少量的步进采样,以换取样本质量。它们还支持零镜头数据编辑,如图像修复、彩色化和超分辨率,而无需对这些任务进行明确训练。一致性模型可以作为提取预先训练的扩散模型的一种方式来训练,也可以作为独立的生成模型来训练。通过大量实验,我们证明它们在一步和几步生成中优于现有的扩散模型蒸馏技术。例如,我们在CIFAR-10上实现了新的最先进FID 3.55,在ImageNet 64x64上实现了6.20,用于一步生成。当作为独立生成模型进行训练时,一致性模型在标准基准(如CIFAR-10、ImageNet 64x64和LSUN 256x256)上的表现也优于单步、非对抗性生成模型。
网友评论