关于 OpenAI 文生视频模型 Sora

关于 OpenAI 文生视频模型 Sora

作者: 啊阿伟啊 | 来源:发表于2024-02-18 00:31 被阅读0次

深度语言模型-GPT
NLP模型应用之三：GPT与GPT-2
下一个纪元的 AI --- 专访 Open AI CEO S
OpenAI新模型---DALL·E
ChatGPT技术报告
人工智能故事生成——GPT-2
浅探ChatGPT
删除所有以往文章，停更简书，博客迁移至 GitHub
OpenAI Gym介绍及安装
03-30AI

Sora 官网截图

2月15日，OpenAI 发布了文生视频模型 Sora，又一次震惊世界，引爆全网，其影响相当出圈，对其的讨论不光在技术圈了。

本文是对官方 Sora 介绍的梳理，能够对 Sora 有基本的认识。

Sora

Sora 是一个文生视频模型，可以根据用户输入生成长达一分钟的视频，可以遵循用户指令并保证生成视频的质量。

能力

目前发现的能力有：

可以生成多角色、特定运动和准确表现主体和背景的细节。
可以理解并表现出事物在真实物理世界的存在形式。
能够深入理解用户指令，能够充分解析用户指令并生动表达出来。（这个需要看官方的演示视频才能真切感受，指令一句话，但是生成视频体现出的内容很丰富）
在一个视频中创建多镜头，并在多个镜头中保持角色一致、视觉风格一致。

不足

目前的不足：

可能难以准确模拟复杂场景的物理原理
可能无法理解物体之间的因果关系，例如，一个人可能咬了一口饼干，但之后饼干可能没有咬痕
可能会混淆提示的空间信息，例如混淆左右
可能难以准确表现随着时间发生的事件，例如遵循指定的相机轨迹

相关技术点

对技术介绍较为浅显，实现方式都不清楚，当前仅作为了解即可，详细情况可以去看官方的技术报告

Sora 是扩散模型。
Sora 可以生成视频，或者在原有视频后面扩展。
让模型一次进行多帧预测，从而让视频中的主体保持一致，即使短暂离开视频，后面再次出现时与之前一样。（问题：什么是多帧预测？如何实现的？）
Sora 使用 Transformer 架构。（问题：扩展模型和Transformer是什么关系？）
将视频和图像作为较小数据单元的集合，这个小的数据单元叫做 patch，每个 patch 和 GPT 中的 token 类似。（问题：patch 中的视频和图像通过什么形式表现的呢？一个patch有多少数据量呢？）
通过统一的数据表现形式，可以训练不同时长、分辨率和纵横比的视频，因此训练数据更为广泛。（问题：如何实现统一表现的呢？）
Sora 建立在 DALL·E 和 GPT 模型的研究之上。Sora 使用了 DALL·E 3 的重述技术（recaptioning technique），通过为视觉训练数据生成详尽的描述性文字说明，大幅提升了模型对用户在视频生成中文字指令的理解和执行能力，从而能够忠实地实现用户指令的意图。
Sora 可以根据指定的静态图片生成视频，扩展视频，视频补帧。

影响和意义

OpenAI 官方认为：

Sora 作为能够理解和模拟现实世界的基础模型，这一能力将是实现 AGI 道路上的重要里程碑。

进一步了解

大家可以去看官方的技术报告：Video generation models as world simulators

相关文章

深度语言模型-GPT
简介 OpenAI在2018提出了GPT(Generative Pre-Training)模型，模型采用了Pre-...
NLP模型应用之三：GPT与GPT-2
GPT模型 GPT全称Generative Pre-Training，出自2018年OpenAi发布的论文《Imp...
下一个纪元的 AI --- 专访 Open AI CEO S
原视频发于油管：OpenAI CEO Sam Altman | AI for the Next Era[https...
OpenAI新模型---DALL·E
2021年刚到来，AI界就迎来了一场开门红，1月5号OpenAI发布了两个新模型，分别叫DALL·E[http:/...
ChatGPT技术报告
ChatGPT技术报告 ChatGPT是一个由OpenAI开发的大型语言模型，是GPT（Generative Pr...
人工智能故事生成——GPT-2
由 OpenAI 推出的文本生成模型 GPT-2 引发了人们的广泛关注，该模型不仅在很多任务上超过了此前的最佳水平...
浅探ChatGPT
ChatGPT是什么 ChatGPT是OpenAI最新公布的对话模型，可以理解为对话版本的GPT3.5，帮你搜索信...
删除所有以往文章，停更简书，博客迁移至 GitHub
新博客地址：Sora Shiro Blog 关于我为什么迁移：《公然恶意抹黑程序员，简书，要点脸好么？》原文： ...
OpenAI Gym介绍及安装
OpenAI Gym学习求助，安装openai gym all老是出错？
03-30AI
话说，之前人工智能研究组织OpenAI发表了新一代的语言模型GPT-3（Generative Pre-traine...

网友评论

本文标题：关于 OpenAI 文生视频模型 Sora

本文链接：https://www.haomeiwen.com/subject/qdppadtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|关于 OpenAI 文生视频模型 Sora|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！