Sora-Part01

作者: 兔大人 | 来源:发表于2024-02-29 00:00 被阅读0次

俗话说得好，OpenAI一出手，就知有没有。
龙年假期最后几天，Sora爆火的视频生成能力着实让人惊叹了一番（何止是一番...）。
不过，其志并不止于此。基于多种类型的视觉数据，训练出一个大一统的世界模拟器才是其终极目标：

image.png

有此“鸿鹄之志”，Sora必不简单，来看看其技术架构：

image.png
（From: https://www.bilibili.com/video/BV1RH4y1j74b/?vd_source=964bd380cc4b08df0618ec01f20911d7）

第一步，将原始视频数据，转化为低纬度的潜空间（Latent Space）特征（基于Latent Diffusion文章），这一步实际上是将原图的关键内容浓缩提炼，极大地压缩了数据量。
第二步，将上一步得到的特征切割为大小相同的Patches（基于Vision Transformer，即ViT技术），类比到大语言模型（Large Language Model, LLM）中，就是tokens。在Sora中，patches为同时包含了时间和空间信息的spacetime patches，并最终被转化为可训练的一维向量。

image.png
(From: https://zhuanlan.zhihu.com/p/682579303?utm_campaign=shareopn&utm_medium=social&utm_oi=55619453190144&utm_psn=1742473712694239232&utm_source=wechat_session)
对于视频的文本描述（Prompt）部分，OpenAI使用了其DALLE3重新字幕技术（微调的GPT4V），使视频描述内容更详细，格式更统一。
第三步，将上一步得到的图、文信息匹配在一起，喂给Diffusion Model做训练。这里的Diffusion模型将Unet架构替换为Transformer架构（Diffusion Trasformer, DiT）。

image.png

当然，在看到Sora“惊艳”部分的同时，我们也看到了它的能力边界：可以实现一定的物理交互，但幻觉问题仍然存在，无法完美地模拟真实世界事物运行所遵循的物理定律，如，玻璃杯摔碎时，碎片四溅（且呈正态分布）

参考

网友评论

本文标题：Sora-Part01

本文链接：https://www.haomeiwen.com/subject/nwrfzdtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

Sora-Part01

参考

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读