
▌01. OpenAI Sora 视频生成模型技术报告总结
▌02. Sora发布的潜在影响
▎C端 / 对于普通人
▎B端 / 对于商业公司
▌03. 技术报告全文中英对照 (GPT4翻译+人工润色)
视频生成模型作为世界模拟器
我们探索了在视频数据上进行大规模训练生成模型。具体来说,我们联合训练了文本条件扩散模型,处理不同持续时间、分辨率和宽高比的视频和图像。我们利用了一种在视频和图像潜码的时空块上操作的变压器架构。我们最大的模型Sora能够生成一分钟的高保真视频。我们的结果表明,扩大视频生成模型的规模是朝着构建物理世界通用模拟器的有前途的路径。
本技术报告重点介绍:(1)我们将各类视觉数据转换为统一表示的方法,该方法能够实现生成模型的大规模训练;(2)Sora能力和局限性的定性评估。报告中未包含模型和实现细节。
以前的许多工作已经研究了使用各种方法对视频数据进行生成建模,包括循环网络、生成对抗网络、自回归变换器和扩散模型。这些工作通常专注于狭窄类别的视觉数据、较短的视频或固定大小的视频。Sora是一种通用的视觉数据模型——它可以生成持续时间、宽高比和分辨率各异的视频和图像,长达一分钟的高清视频。
Turning visual data into patches
我们从大型语言模型中获得灵感,这些模型通过在互联网规模的数据上训练来获得通用能力。这种范式的成功在一定程度上得益于使用词元编码/令牌(token),它们巧妙地统一了文本的多种形式——代码、数学和各种自然语言。在这项工作中,我们考虑如何让视觉数据的生成模型继承这些好处。与拥有文本令牌的不同,Sora拥有视觉块嵌入编码(visual patches)。视觉块已被证明是视觉数据模型的一种有效表示。我们发现,补丁是一种高度可扩展且有效的表示形式,用于在多种类型的视频和图像上训练生成模型。
在高维上,我们首先将视频压缩到一个低维潜在空间,然后将表示分解成时空嵌入,从而将视频转换成一系列编码块。
Video compression network
我们训练了一个网络,用于降低视觉数据的维度。这个网络将原始视频作为输入,并输出一个在时间和空间上都被压缩的潜在表示。Sora在这个压缩的潜在空间内接受训练,并随后生成视频。我们还训练了一个相应的解码器模型,将生成的潜在表示映射回像素空间。
Spacetime Latent Patches
隐空间时空编码块
给定一个压缩的输入视频,我们提取一系列时空编码块作为transformer令牌(token)。这种方案也适用于图像,因为图像只是帧数为单一的视频。我们基于补丁的表示使得Sora能够训练不同分辨率、持续时间和宽高比的视频和图像。在推理时,我们可以通过在适当大小的网格中排列随机初始化的编码块来控制生成视频的大小。
Scaling transformers for video generation
Sora是一个扩散模型;给定输入的噪声块(和像文本提示这样的条件信息),它被训练来预测原始的“干净”块。重要的是,Sora是一个扩散变换器。变换器在包括语言建模、计算机视觉和图像生成等多个领域展现了显著的扩展属性。
在这项工作中,我们发现扩散变换器作为视频模型也能有效地扩展。下面,我们展示了训练进展过程中,使用固定种子和输入的视频样本比较。随着训练计算量的增加,样本质量显著提高。
Variable durations, resolutions, aspect ratios
过去在图像和视频生成中的方法通常会将视频调整大小、裁剪或剪辑到一个标准尺寸——例如,4秒长的视频,分辨率为256x256。我们发现,直接在数据的原始尺寸上进行训练可以带来几个好处。
Sampling flexibility
采样灵活性
Sora可以采样宽屏1920x1080p视频、竖屏1080x1920视频以及介于两者之间的所有格式。这使得Sora能够直接按照不同设备的原生宽高比创建内容。它还允许我们在使用同一模型生成全分辨率内容之前,快速原型化较小尺寸的内容。
Improved framing and composition
我们通过实证发现,在视频的原始宽高比上进行训练可以改善构图和取景。我们将Sora与一个版本的模型进行了比较,该模型将所有训练视频裁剪成正方形,这是训练生成模型时的常见做法。在正方形裁剪上训练的模型(左侧)有时会生成主体只部分出现在视野中的视频。相比之下,来自Sora的视频(右侧)具有改善的取景。
Language understanding
语言理解
训练文本到视频生成系统需要大量带有相应文字标题的视频。我们将在DALL·E 3中引入的重新标注技术应用到视频上。我们首先训练一个高度描述性的标注模型,然后使用它为我们训练集中的所有视频生成文字标题。我们发现,在高度描述性的视频标题上进行训练可以提高文本的准确性以及视频的整体质量。
类似于DALL·E 3,我们也利用GPT将用户的简短提示转换成更长的详细说明,然后发送给视频模型。这使得Sora能够生成高质量的视频,准确地遵循用户的提示。
Prompting with images and videos
上述结果以及我们的登录页面展示了文本到视频的样本。但是Sora也可以通过其他输入进行提示,例如预先存在的图片或视频。这项能力使得Sora能够执行广泛的图像和视频编辑任务——创建完美循环的视频,为静态图像添加动画,向前或向后延长视频的时间等。
Animating DALL·E images 制作DALL·E图像动画
Sora能够根据输入的图片和提示生成视频。下面我们展示了基于DALL·E 2 31 和DALL·E 3 30 图片生成的示例视频。
Extending generated videos
Sora也能够将视频向前或向后延长时间。下面是四个视频,它们都是从生成的视频片段开始向后延长的。因此,这四个视频的开头各不相同,但最终都会达到相同的结局。
我们可以使用这种方法将视频向前和向后扩展,以制作出无缝的无限循环。
Video-to-video editing 视频到视频编辑
扩散模型使得从文本提示编辑图像和视频的方法层出不穷。下面我们将其中一种方法,SDEdit,应用于Sora。这项技术使得Sora能够零次学习地转换输入视频的风格和环境。
Connecting videos
连接视频
我们还可以使用Sora在两个输入视频之间逐渐插值,创建在完全不同主题和场景构成的视频之间的无缝过渡。在下面的例子中,中间的视频在左右两边对应视频之间进行插值。
Image generation capabilities
Sora也能够生成图像。我们通过在具有一个帧时间范围的空间网格中排列高斯噪声块来实现这一点。该模型可以生成不同大小的图像——分辨率最高可达2048x2048。
Close-up portrait shot of a woman in autumn, extreme detail, shallow depth of field 秋天里一位女性的特写肖像,极致细节,浅景深
Vibrant coral reef teeming with colorful fish and sea creatures 充满活力的珊瑚礁,挤满了五彩缤纷的鱼类和海洋生物
Digital art of a young tiger under an apple tree in a matte painting style with gorgeous details 数字艺术:一只幼年老虎在苹果树下,采用哑光绘画风格,细节华丽
A snowy mountain village with cozy cabins and a northern lights display, high detail and photorealistic dslr, 50mm f/1.2 一个雪山村庄,有着舒适的小木屋和北极光展示,高清晰度和逼真的数码单反相机,50mm f/1.2镜头拍摄。
Emerging simulation capabilities
我们发现,当在大规模上训练时,视频模型展现出许多有趣的新兴能力。这些能力使得Sora能够模拟现实世界中人类、动物和环境的某些方面。这些属性并没有任何针对3D、物体等的明确归纳偏见——它们纯粹是规模效应的现象。
3D一致性。Sora能够生成具有动态相机运动的视频。随着相机的移动和旋转,人物和场景元素在三维空间中保持一致地移动。
长距离一致性和物体恒存性。对于视频生成系统来说,一个重大挑战是在采样长视频时保持时间上的连贯性。我们发现,尽管不总是如此,Sora通常能够有效地建模短距离和长距离依赖关系。例如,我们的模型即使在人、动物和物体被遮挡或离开画面时,也能持续保持它们的存在。同样,它能在单个样本中生成同一角色的多个镜头,并在整个视频中保持其外观。
与世界互动。Sora有时可以模拟一些简单的动作来影响世界的状态。例如,画家可以在画布上留下随时间持续存在的新笔触,或者一个人可以吃一个汉堡并留下咬痕。
模拟数字世界。Sora也能够模拟人工过程——一个例子是视频游戏。Sora可以在同时控制《我的世界》中的玩家采用基本策略的同时,还能以高保真度渲染世界及其动态。通过用提到“我的世界”的字幕提示Sora,可以零次尝试地引发这些能力。
这些能力表明,持续扩展视频模型是朝着开发高度能够模拟物理和数字世界及其内部的物体、动物和人类的有希望的道路。
Discussion 讨论
Sora作为一个模拟器目前展现出许多限制。例如,它并没有准确地模拟许多基本互动的物理效应,比如玻璃破碎。其他互动,比如吃食物,不总是产生正确的物体状态变化。我们在我们的登录页面列举了模型的其他常见故障模式——比如在长时间样本中发展的不连贯性或物体的自发出现。
我们相信,Sora目前的能力表明,持续扩展视频模型是朝着开发能够模拟物理和数字世界及其内部的物体、动物和人类的有能力的模拟器的有希望的道路。

