扩散模型原理解析

作者: 金色暗影 | 来源:发表于2023-01-28 17:07 被阅读0次

vue实现原理解析及一步步实现vue框架
扩散模型
netty 线程模型（未完成）
认知升级之第一性原理
神经网络架构搜索——可微分搜索（PC-DARTS）
扩散模型与GLIDE
学习资料汇总
广播模型、扩散模型与传染模型框架
Hbase学习资料
Swift--字典转模型

去年写的文章,从notion的博客搬到这边来发一下（本来想搬到微信公众号的，但是那个格式真的反人类就作罢了），原文请到这里看mewimpetus.以后文章都会再这边先发。

引言

扩散模型是今年AI领域最热门的研究方向。由其引发的AI绘画的产业变革正在如火如荼的进行，大有淘汰一大票初中级画师的势头，目前主流的（诸如OpenAI的DALL-E 2;Google的ImageGen;以及已经商业化的MidJourney；注重二次元的NovelAI；开源引爆这波热潮的stable-diffusion)图像生成模型效果已经让人惊艳，若是再发展几年，它带来的影响将不可估量，可以说整个绘画产业正在经历着一场百年未有之大变局。而这些功能强大的绘画模型，无疑都与Denoising Diffusion Probabilistic Models 摆脱不了关系，它的原始论文由Google Brain在2020年发表。这篇博文主要带大家一起来探究一下DDPM的工作原理和实现细节。

扩散模型的基本流程

其实扩散模型的基本思路同GAN以及VAE并无二致，都是试图从一个简单分布的随机噪声出发，经过一系列的转换，转变成类似于真实数据的数据样本。

它主要包含前向加噪声和反向去噪声两个过程：

从真实的数据分布中随机采样一个图片，然后通过一个固定的过程逐步往上面添加高斯随机噪声，直到图片变成一个纯粹的噪声
构建一个神经网络，去学习一个去噪的过程，从一个纯粹的噪声出发，逐步还原回一个真实的图像。

接下来我们用数学形式来表达上面的两个过程。

前向扩散

我们将真实数据的分布定义为 $q(x)$ ，然后可以从这个分布中随机采样一个”真图“ $x_0 \sim q(x)$ ，于是我们就可以定义一个前向扩散的递推过程 $q(x_t|x_{t-1})$ 为每个时间步 $t$ 添加少量高斯噪声并执行 $T$ 步。DDPM作者将 $q(x_t|x_{t-1})$ 定义为这样一个条件高斯分布（其中的 $\{\beta_t \in (0, 1)\}_{t=1}^T$ 是一个既定的递增表）：

$q(\mathbf{x}*t|\mathbf{x}*{t-1})=\mathcal{N}(\mathbf{x}*t;\sqrt{1-\beta_t}\mathbf{x}*{t-1},\beta_tI)$

显然，当 $t-1$ 时刻的图像为 $x_{t-1}$ 的条件下， $t$ 时刻的图像 $X_t$ 服从一个均值 $\mu_t=\sqrt{1-\beta_t}x_{t-1}$ ，方差 $\sigma^2=\beta_tI$ 的各项同性高斯分布。我们再观察一下这个递推式，因为 $1-\beta$ 和 $\beta$ 都小于1，显然 $x_t$ 的均值会比 $x_t-1$ 更加趋向于 $0$ ，方差也更趋向于 $I$ ,因此如果设计合适的 $\beta_t$ 序列，最终的 $X_T$ 将趋近于标准的高斯分布 $\mathcal{N}(0,I)$ 。根据高斯分布的性质1:

如果 $X \sim \mathcal{N}(\mu, \sigma^2)$ 且 $a$ 与 $b$ 都是实数，那么 $aX+b \sim \mathcal{N}(a\mu+b,(a\sigma)^2)$ 。

上述的条件高斯分布显然可以通过从标准高斯分布的线性变换得到，我们定义 $\epsilon_t\sim \mathcal{N}(0, I)$ ,那么只要让 $\mathbf{x}*t=\sqrt{\beta_t}\epsilon_t +\sqrt{1-\beta_t}\mathbf{x}*{t-1}$ ,那么第 $t$ 个时间步的图像 $\mathbf{x}_t\sim \mathcal{N}(\mathbf{x}*t;\sqrt{1-\beta_t}\mathbf{x}*{t-1},\beta_tI)$ 。

为了更好的计算任意时刻 $t$ 的条件分布，我们根据上面的递推式逐步推导到 $x_0$ ,为了方便推导，我们令 $\alpha_t=1-\beta_t$ ， $\overline\alpha_t=\prod^t_{i=1}\alpha_i$ 则有了推导1：

$\begin{aligned}\mathbf{x}*t &= \sqrt{1-\alpha_t}\epsilon_t + \sqrt{\alpha_t}\mathbf{x}*{t-1} \\&=\sqrt{1-\alpha_t}\epsilon_t +\sqrt{\alpha_t}(\sqrt{1-\alpha_{t-1}}\epsilon_t+\sqrt{\alpha_{t-1}}\mathbf{x}*{t-2}) \\&= \sqrt{1-\alpha_t}\epsilon_t+\sqrt{\alpha_t (1-\alpha*{t-1})} \epsilon_t + \sqrt{\alpha_t\alpha_{t-1}}\mathbf{x}*{t-2} \\ &= \sqrt {1-\alpha_t\alpha*{t-1}}\epsilon_t + \sqrt{\alpha_t\alpha_{t-1}}\mathbf{x}_{t-2} \\&= ... \\&=\sqrt{1-\overline\alpha_t}\epsilon_t +\sqrt{\overline\alpha_t}\mathbf{x}_0\end{aligned}$

上式中第3行到第4行的推导用到了上述的性质1，以及高斯分布的另一个性质2：

如果 $X\sim\mathcal{N}(\mu_X,\sigma_X^2)$ 与 $Y \sim \mathcal{N}(\mu_Y,\sigma_Y^2)$ 是独立统计的高斯随机变量，那么，它们的和也满足高斯分布 $X + Y \sim \mathcal{N}(\mu_X +\mu_Y, \sigma^2_X+\sigma^2_Y)$ 。

由性质1可知， $\sqrt{1-\alpha_t}\epsilon_t \sim\mathcal{N}(0,(1-\alpha_t)I)$ ,而 $\sqrt{\alpha_t(1-\alpha_{t-1})}\epsilon_t \sim \mathcal{N}(0, \alpha_t(1-\alpha_{t-1})I)$ ,再根据性质2，就可得 $\sqrt{1-\alpha_t}\epsilon +\sqrt{\alpha_t(1-\alpha_{t-1})}\epsilon \sim \mathcal{N}(0,(1-\alpha_t\alpha_{t-1})I)$ , 再根据性质1写回到多项式的形式即得到推导的结果。

基于这个最终的推导结果，因为 $\alpha_t$ 是事先已经定义好的，我们只需要给出初始真实分布采样 $x_0$ ，即可以计算出任何第 $t$ 步的样本 $x_t$ ，而不需要每次都从 $x_1$ 开始一步步计算。

反向去噪

有了前向的过程，我们反过来想，既然前向扩散是一个马尔可夫过程，那么它的逆过程显然也是马尔可夫过程，如果我们可以构造一个相反的条件分布 $q(x_{t-1}|x_t)$ ,那不就可以从最终的 $x_T$ 开始一步步地去噪，从而反推回初始的 $x_0$ 了吗？但是我们并不知道反向条件高斯分布的均值和方差。不过，在这个深度学习的时代，我们可以从真实数据集 $X_0$ 出发，通过前向过程生成一系列的 $x_0 \to x_T$ 的真实扩散序列，然后设计一个神经网络从这些序列中来近似学习一个分布 $p_\theta(x_{t-1}|x_t)$ 使其接近真实的 $q(x_{t-1}|x_t)$ ，其中的 $\theta$ 是这个神经网络需要学习的参数，于是从 $x_T$ 变换到 $x_0$ 的概率可以表示成：

$p_\theta(\mathbf{x}*{T:0}) = p(\mathbf{x}*T)\prod*{t=1}^Tp*\theta(\mathbf{x}_{t-1}|\mathbf{x}_t)$

当我们前向过程所定义的 $\beta_t$ 足够小时，反向过程也满足高斯分布，因此我们可以假设神经网络要学习的这个分布是高斯分布，这意味着它需要去学习其均值 $\mu_\theta$ 和方差 $\Sigma_\theta$ ,换成与上述前向过程相同的表示则有递推公式：

$p_\theta(\mathbf{x}*{t-1}|\mathbf{x}*t) = \mathcal{N}(\mathbf{x}*{t-1};\mu*\theta(\mathbf{x}*t, t),\Sigma*\theta(\mathbf{x}_t, t))$

借助这个公式，我们就可以完成去噪过程了，接下来的任务变成了如何训练这个神经网络。

如何训练

基本思路

不知大家又没有觉得这个加噪声和去噪声的过程和VAE的编码和解码的过程十分类似，那么是否可以从VAE的训练方式中得到一些启发呢？实际上作者就是这么想的。

图像前向扩散及反向去噪的过程，正向概率已知，反向的转移概率是我们希望得到的。

显然，如果直接使用 $\mathbf{x}*t$ 与 ${\mathbf{x}'}*{t}$ 的对比误差会导致模型过拟合成AE一样的无生成能力的模型。因此，我们使用与VAE类似的变分推断的方法，希望网络输出的 ${\mathbf{x}'}*{t-1}$ 尽量接近由真实 $\mathbf{x}*0$ 变化而来的 $\mathbf{x}*{t-1}$ 的分布，即最小化似然 $p*\theta(\mathbf{x}*{t-1}|x*{t})$ 与真实的 $q(\mathbf{x}*{t-1}|\mathbf{x}*{t}, \mathbf{x}*0)$ 的 $D*{KL}(q(\mathbf{x}*{t-1}|\mathbf{x}*{t}, \mathbf{x}*0))||p*\theta(\mathbf{x}*{t-1}|\mathbf{x}*{t})$ 。于是每一个时间步骤 $\{t \in [1,T]\}$ 的误差可以定义为：

$L_t=\left\{\begin{aligned}&-log~p_\theta(\mathbf{x}*0|\mathbf{x}*1) ~~~,when~ t=1\\&D*{KL}(q(\mathbf{x}*{t-1}|\mathbf{x}*{t}, \mathbf{x}*0))||p*\theta(\mathbf{x}*{t-1}|\mathbf{x}_{t}) ~ ~~,when~ t \in [2,T]\end{aligned}\right.$

而当 $t=1$ 时，因为 $q(\mathbf{x}*0)$ 是确定的，因此可以忽略这部分，故而 $L_1 = -log~p*\theta(\mathbf{x}_0|\mathbf{x}_1)$ ,因此

于是整个去噪过程的误差就是： $L=\sum^{T}_{t=1}L_t$ 。实际训练时，我们并没有使用整体的误差 $L$ ，而是通过均匀随机选择 $t$ ，来最小化 $L_t$ 。

目标函数

要直接计算上面的KL散度是困难的，但是正如前面所说的， $q(\mathbf{x}_{t-1} \vert \mathbf{x}_t, \mathbf{x}_0)$ 是一个高斯分布，于是根据贝叶斯公式有：

$\begin{aligned} q(\mathbf{x}_{t-1} \vert \mathbf{x}_t, \mathbf{x}_0) &= q(\mathbf{x}*t \vert \mathbf{x}*{t-1}, \mathbf{x}*0) \frac{ q(\mathbf{x}*{t-1} \vert \mathbf{x}_0) }{ q(\mathbf{x}*t \vert \mathbf{x}*0) } \\ &\propto \exp \Big(-\frac{1}{2} \big(\frac{(\mathbf{x}*t - \sqrt{\alpha_t} \mathbf{x}*{t-1})^2}{\beta_t} + \frac{(\mathbf{x}*{t-1} - \sqrt{\bar{\alpha}*{t-1}} \mathbf{x}*0)^2}{1-\bar{\alpha}*{t-1}} - \frac{(\mathbf{x}_t - \sqrt{\bar{\alpha}*t} \mathbf{x}*0)^2}{1-\bar{\alpha}*t} \big) \Big) \\ &= \exp \Big(-\frac{1}{2} \big(\frac{\mathbf{x}*t^2 - 2\sqrt{\alpha_t} \mathbf{x}*t {\color{blue}{\mathbf{x}*{t-1}}} + \alpha_t {\color{red}{\mathbf{x}*{t-1}^2}} }{\beta_t} + \frac{ {\color{red}{\mathbf{x}*{t-1}^2}} {- 2 \sqrt{\bar{\alpha}*{t-1}} \mathbf{x}*0} \color{blue}{\mathbf{x}*{t-1}}{+ \bar{\alpha}*{t-1} \mathbf{x}*0^2} }{1-\bar{\alpha}*{t-1}} - \frac{(\mathbf{x}_t - \sqrt{\bar{\alpha}*t} \mathbf{x}*0)^2}{1-\bar{\alpha}*t} \big) \Big) \\ &= \exp\Big( -\frac{1}{2} \big( {\color{red}{(\frac{\alpha_t}{\beta_t} + \frac{1}{1 - \bar{\alpha}*{t-1}})} \mathbf{x}*{t-1}^2} - \color{blue}{(\frac{2\sqrt{\alpha_t}}{\beta_t} \mathbf{x}*t + \frac{2\sqrt{\bar{\alpha}*{t-1}}}{1 - \bar{\alpha}*{t-1}} \mathbf{x}*0)} \mathbf{x}*{t-1}{ + {\color{green}{C(\mathbf{x}_t, \mathbf{x}_0)} }\big) \Big)} \end{aligned}$

其中 $\color{green}{C(\mathbf{x}_t,\mathbf{x}*0)}$ 代表所有剩余与 $\mathbf{x}*{t-1}$ 无关的项。

根据高斯分布的基本方程:

与上述的推导结果位置依次对应可得其方差和均值为：

根据上面的推导1可得 $\mathbf{x}_0 = \frac{1}{\sqrt{\overline{\alpha}_t}}(\mathbf{x}_t - \sqrt{1 - \bar{\alpha}_t}\boldsymbol{\epsilon_t})$ ,带入上式可得：

$\boldsymbol\mu(\mathbf{x}_t,\mathbf{x}_0)= \frac{1}{\sqrt{\alpha_t}}(\mathbf{x}_t - \frac{\beta_t}{\sqrt{1-\bar\alpha}}\epsilon_t)$

最小化上述的KL散度，可以转化为计算神经网络的预测的均值方差与上述均值方差的L2损失:

$\begin{aligned} L_t^{\Sigma} &= ||\Sigma(\mathbf{x}_t,\mathbf{x}*0)-\Sigma*\theta(\mathbf{x}_t,t)||^2 \\ L_t^{\mu} &=||\mu(\mathbf{x}_t,\mathbf{x}*0)-\mu*\theta(x_t,t))|| \\ &= ||\frac{1}{\sqrt{\alpha_t}}(\mathbf{x}_t - \frac{\beta_t}{\sqrt{1-\bar\alpha}}{\color{red}\epsilon_t}) - \frac{1}{\sqrt{\alpha_t}}(\mathbf{x}*t - \frac{\beta_t}{\sqrt{1-\bar\alpha}}{\color{green}\epsilon*\theta(\mathbf{x}_t, t)})||^2 \end{aligned}$

DDPM的论文作者在论文中说他使用一个固定的方差取得了差不多的效果，因此他的神经网络只去学习了均值，而把方差设置成了 $\beta_t$ 或者是 $\frac{1-\bar a_{t-1}}{1-\bar a_t}\beta_t$ ，因此我们接下来的推导也只考虑均值。后来Improved diffusion models 这篇论文将其改进后就让神经网络同时去学习均值和方差了，有兴趣的同学可以自行去了解。

观察上面的 $L_t^{\mu}$ ，除了 $\epsilon_\theta$ ,其余项均为固定值与 $\theta$ 无关，于是我们不妨将神经网络的学习目标从高斯分布的均值转变为 $\epsilon_\theta$ ，即去预测每个事件步的噪声量而非高斯分布的均值，因此我们最终的目标函数就变成了：

$\begin{aligned} L_t &= ||\epsilon - \epsilon_\theta(\mathbf{x}*t,t)||^2 \\ &=||\epsilon - \epsilon*\theta(\sqrt{1-\overline\alpha_t}\epsilon +\sqrt{\overline\alpha_t}\mathbf{x}_0,t)||^2 \end{aligned}$

然后，整个训练算法便是这样一个过程：

从真实的复杂未知分布 $q(x)$ 随机抽取一个样本 $x_0$
从 $1$ 到 $T$ 均匀采样一个时间步 $t$
从均值为 $**0**$ 方差为 $I$ 的标准高斯分布中随机采样一个 $\epsilon$
计算随机梯度 $\nabla_\theta ||\epsilon - \epsilon_\theta(\sqrt{1-\overline\alpha_t}\epsilon +\sqrt{\overline\alpha_t}\mathbf{x}_0,t)||^2$ ，并通过随机梯度下降优化 $\theta$
重复上述过程直到收敛

采样生成

当上述的神经网络学习好 $\epsilon_\theta$ , 就可以计算出均值 $\mu_\theta = \frac{1}{\sqrt{\alpha_t}}(\mathbf{x}*t - \frac{\beta_t}{\sqrt{1-\bar\alpha}}\epsilon*\theta)$ ,于是我们就可以从一个随机高斯噪声 $\mathbf{x}*T \sim \mathcal{N}(0,I)$ ，通过条件去噪概率 $p*\theta(\mathbf{x}*{t-1}|\mathbf{x}*{t}) = \mathcal{N}(\mu_\theta(\mathbf{x}_t,t),\sigma_t^2)$ 进行采样生成，逐步从 $\mathbf{x}_T$ 到 $\mathbf{x}_0$ 。

具体来说Sampling是这样一个过程：

随机采样一个 $\mathbf{x}_T \sim \mathcal{N}(0,I)$
令 $t=T,…,1$ ，依次执行：

$z \sim \mathcal{N}(0,I) \\ \\ \mathbf{x}*{t-1} = \mu*\theta(\mathbf{x}_t,t) + \sigma_t z$
返回最终的 $\mathbf{x}_0$

网络结构

虽然有了训练的方案，但是如何来设计这个神经网络 $\epsilon_\theta$ 才能让我们这个扩散和反扩散的过程取得较好的效果呢？DDPM的作者选择了U-Net ，并且在实验中取得了很好的效果。

这个用于学习 $\epsilon_\theta$ 的U-Net网络十分复杂，由一系列的诸如下采样、上采样、残差、位置Embedding、ResNet/ConvNeXT block、注意力模块、Group Normalization等组件组合而成，为了让大家了解整个网络各个组件的具体结构和连接方式，我绘制了一个详细的网络图：

DDPM 反向去噪神经U-Net网络结构

根据这个图，我们可以用tensorflow或者pytorch非常轻松的实现这个网络。不过显然这个网络很大，特别是图片很大时占用的显存会很高，而且采样步骤多推理也很慢，因此后面有很多对于DDPM的改进，篇幅关系，关于对DDPM的改进我们下篇文章再讲。

参考资料

vue实现原理解析及一步步实现vue框架
深入解析vue 1实现原理，并实现vue双向数据绑定模型vueImitate，此模型(vueImitate)只适用...
扩散模型
常见的生成模型（Generative Models）如 GAN、VAE 和基于流( Flow-based )的模型...
netty 线程模型（未完成）
参考 Netty原理架构解析 netty 入门 netty工作原理架构图+ 虽然Netty的线程模型基于主从Rea...
认知升级之第一性原理
用芒格方法结合实际案例梳理自己的“多元思维模型”，并推导自己工作或创业的第一性原理。解析： 1、“思维模型”是我...
神经网络架构搜索——可微分搜索（PC-DARTS）
PC-DARTS原理及源码解析华为发表在ICLR 2020上的NAS工作，针对现有DARTS模型训练时需要 La...
扩散模型与GLIDE
OpenAI最近发布了DALL-E 2.可看作是CLIP+GLIDE.GLIDE是一个扩散模型，想弄清楚DALL-...
学习资料汇总
GeoHash核心原理解析 GeoHash算法学习讲解、解析及原理分析
广播模型、扩散模型与传染模型框架
【书籍/课程名称】广播模型、扩散模型与传染模型【类型】 [x]书籍目录框架/课程框架【关键词】 * 广播模型（...
Hbase学习资料
HBase数据模型解析和基本的表设计分析 Hbase原理、基本概念、基本架构 HBase 超详细介绍 Apache...
Swift--字典转模型
1、 initWithDict 这种方式最原始模型：解析： 2、SwiftyJSON 模型：解析： 3、Ha...