Sora官方技术拆解

作者: ExecutorofZero | 来源:发表于2024-02-25 17:04 被阅读0次

好看的影视作品的演员
告诉朋友真相...（mofy）
［AKB48］《1994年の雷鸣》中文日文罗马歌词
#SorachanCoin#(#SORA#) get base
安捷伦实验室真空泵拆解
如何将 azw3 格式转换为 mobi 格式
学员-27组-孙尧【202002训练营-W3D3-拆解阅读的四个
Sora Ventures 创始合伙人：创业者想拿中国币圈投资人
iOS APP内存优化技术
#转化文案#拆解—老板油烟机详情页图文包装套路

Sora 模型基于 Transformer 架构，建立在 DALL·E 3 和 GPT 模型之上，使用文本到视频的合成技术，按文本提示生成视频。这种技术将自然语言转换为视觉表示形式——图像或视频。

output.jpeg

output (1).jpeg

OpenAI 在官网展示 Sora 的生成逻辑

深度神经网络依然是 Sora 的基础，它是一个带有 Transformer 骨架的扩散（Diffusion）模型，AI 从数据中学习并执行复杂的任务。Sora 就是从“学习”的大型视频数据集里学会了各种风格、主题和流派。
Transformer 模型本质是一个编码器-解码器，输入原始语言，生成目标语言。扩散模型的原理是先给数据添加高斯噪声，再反向去除，从中恢复数据本貌。
简单粗暴地理解 Sora 的原理，就是翻译器+搜索引擎+概率制作（内容）。
首先，拿到提示词后，Sora 先分析文本，提取关键字，比如主题、动作、地点、时间和情绪，再从它的数据集里搜索与关键字匹配的、最合适的视频。
其次，Sora 将数据集里合适的视频混合在一起，重新创建一个符合要求的视频。在“创造”的过程中，它要“知道”场景中有哪些对象和角色，它们的外形，它们如何运动，对象如何交互，以及受到环境影响后如何表现。
根据用户的喜好，Sora 会修改视频的风格。假如用户想要一个 35 毫米胶片样式的视频，Sora 会调整效果，更改图像的亮度、色彩和摄像机角度。这一点和 Midjourney 等“文生图”应用类似。
Sora 可以生成分辨率 1920x1080 的视频，也可以基于静止图片创建视频，使用新素材扩展现有素材。比如用户给它一张森林图片，它可以帮你加上鸟、兽、人。给它一张汽车行驶图，它能加上道路、交通灯、沿途建筑物和风景。