美文网首页
DALL-E-2:Hierarchical Text-Condi

DALL-E-2:Hierarchical Text-Condi

作者: 斯文攸归 | 来源:发表于2022-06-16 19:17 被阅读0次

OpenAI Text2Image based on CLIP and Diffusion Model

DALL-E-2网络模型

虚线以上部分表示CLIP的训练过程,预训练CLIP模型在生成图片的过程中是固定的

虚线以下部分表示利用CLIP的text encoder生成图片的过程,在获取输入文本描述的text embedding之后,将其输入一个prior(autoregressive or diffusion),来获取image embedding,然后将image embedding送入diffusion model(decoder,改进版GLIDE)来生成图像。

prior网络的训练过程,对一个图片文本对(x,y)和已经训练好的CLIP模型(text encoder && image encoder),将文本描述y输入text encoder,得到文本编码z_t,将图片x输入image encoder,得到图像编码z_i,不妨设z_t输入prior模型得到预测的图像编码z^{p}_i,希望z^p_iz_i越接近越好,以此来更新prior模块。最终训练好的prior,将与CLIP的text encoder串联起来,即可根据输入文本y生成对应的图像编码特征z_i

在DALL-E 2 模型中,作者团队尝试了两种prior模型:自回归式Autoregressive (AR) prior 和扩散模型Diffusion prior。实验效果上发现两种模型的性能相似,而因为扩散模型效率较高,因此最终选择了扩散模型作为prior模块。

生成图像的理论公式

P(z_i|y)表示prior网络,输入文本描述y,产生image embeddingz_i

P(x|z_i,y)表示decoder,输入image embedding,生成图片,同时生成过程条件于文本描述。

相关文章

网友评论

      本文标题:DALL-E-2:Hierarchical Text-Condi

      本文链接:https://www.haomeiwen.com/subject/jenxvrtx.html