DALL-E-2:Hierarchical Text-Condi

作者: 斯文攸归 | 来源:发表于2022-06-16 19:17 被阅读0次

DALL-E-2:Hierarchical Text-Condi
2019-01-12[Stay Sharp]hierarchic
基于word2vec训练词向量(二)
Hierarchical Macro Strategy Mode
HIERARCHICAL REPRESENTATIONS FOR
数据包分析实战里的插图
【现学现卖】CHEER与病毒宏基因组数据分析（1）
【现学现卖】CHEER与病毒宏基因组数据分析（2）
Neuron 猕猴V1, V2和V4等级化的颜色处理机制
On Reinforcement Learning for Fu

OpenAI Text2Image based on CLIP and Diffusion Model

DALL-E-2网络模型

虚线以上部分表示CLIP的训练过程，预训练CLIP模型在生成图片的过程中是固定的

虚线以下部分表示利用CLIP的text encoder生成图片的过程，在获取输入文本描述的text embedding之后，将其输入一个prior(autoregressive or diffusion)，来获取image embedding，然后将image embedding送入diffusion model(decoder，改进版GLIDE)来生成图像。

prior网络的训练过程，对一个图片文本对 $(x,y)$ 和已经训练好的CLIP模型（text encoder && image encoder），将文本描述 $y$ 输入text encoder，得到文本编码 $z_t$ ，将图片 $x$ 输入image encoder，得到图像编码 $z_i$ ，不妨设 $z_t$ 输入prior模型得到预测的图像编码 $z^{p}_i$ ，希望 $z^p_i$ 与 $z_i$ 越接近越好，以此来更新prior模块。最终训练好的prior，将与CLIP的text encoder串联起来，即可根据输入文本 $y$ 生成对应的图像编码特征 $z_i$ 。