美文网首页
Sora-Part01

Sora-Part01

作者: 兔大人 | 来源:发表于2024-02-29 00:00 被阅读0次

    俗话说得好,OpenAI一出手,就知有没有。
    龙年假期最后几天,Sora爆火的视频生成能力着实让人惊叹了一番(何止是一番...)。
    不过,其志并不止于此。基于多种类型的视觉数据,训练出一个大一统的世界模拟器才是其终极目标:


    image.png

    有此“鸿鹄之志”,Sora必不简单,来看看其技术架构:

    image.png
    (From: https://www.bilibili.com/video/BV1RH4y1j74b/?vd_source=964bd380cc4b08df0618ec01f20911d7

    第一步,将原始视频数据,转化为低纬度的潜空间(Latent Space)特征(基于Latent Diffusion文章),这一步实际上是将原图的关键内容浓缩提炼,极大地压缩了数据量。
    第二步,将上一步得到的特征切割为大小相同的Patches(基于Vision Transformer,即ViT技术),类比到大语言模型(Large Language Model, LLM)中,就是tokens。在Sora中,patches为同时包含了时间和空间信息的spacetime patches,并最终被转化为可训练的一维向量。

    image.png
    (From: https://zhuanlan.zhihu.com/p/682579303?utm_campaign=shareopn&utm_medium=social&utm_oi=55619453190144&utm_psn=1742473712694239232&utm_source=wechat_session)
    对于视频的文本描述(Prompt)部分,OpenAI使用了其DALLE3重新字幕技术(微调的GPT4V),使视频描述内容更详细,格式更统一。
    第三步,将上一步得到的图、文信息匹配在一起,喂给Diffusion Model做训练。这里的Diffusion模型将Unet架构替换为Transformer架构(Diffusion Trasformer, DiT)。
    image.png

    当然,在看到Sora“惊艳”部分的同时,我们也看到了它的能力边界:可以实现一定的物理交互,但幻觉问题仍然存在,无法完美地模拟真实世界事物运行所遵循的物理定律,如,玻璃杯摔碎时,碎片四溅(且呈正态分布)


    参考

    1. https://openai.com/research/video-generation-models-as-world-simulators
    2. https://www.bilibili.com/read/cv31568756/
    3. https://zhuanlan.zhihu.com/p/682579303?utm_campaign=shareopn&utm_medium=social&utm_oi=55619453190144&utm_psn=1742473712694239232&utm_source=wechat_session

    相关文章

      网友评论

          本文标题:Sora-Part01

          本文链接:https://www.haomeiwen.com/subject/nwrfzdtx.html