OpenAI 又一次血洗了整个 AI 界！

「Sora」能根据使用者给予的文字提示生成短影片，内容包含多个角色及特定类型的动态画面，影片长度最多60秒，也可依据静态图像制作动画。

一、关于Sora 模型

OpenAI 官方文档介绍：Sora是一种扩散模型，主要通过静态噪音的视频开始生成视频，然后再通过多个步骤去除噪音，逐渐转换视频。

Sora 与 ChatGPT 一样采用 Transformer 架构，并使用了 DALL-E 3 中的重述技术，是一种为视觉训练数据生成高精准描述性的字幕。

所以，Sora 在生成视频过程中精准还原用户的文本提示语义。

除了文本生成视频之外，Sora 还能根据图像生成视频，并能准确地对图像内容进行动画处理。也能提取视频中的元素，对其进行扩展或填充缺失的帧，功能非常全面。

二、Sora 案例演示

案例1：一个简单的指令，60s 视频一镜到底

Prompt:

“A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. she wears a black leather jacket, a long red dress, and black boots, and carries a black purse. she wears sunglasses and red lipstick. she walks confidently and casually. the street is damp and reflective, creating a mirror effect of the colorful lights. many pedestrians walk about.”

中文指令：

“一位时尚女性走在充满温暖霓虹灯和动画城市标牌的东京街道上。她穿着黑色皮夹克、红色长裙和黑色靴子，拎着黑色钱包。她戴着太阳镜，涂着红色口红。她走路自信而随意。街道潮湿且反光，在彩色灯光的照射下形成镜面效果。很多行人走来走去。”

在 Runway、Pika 等 AI 视频工具还按秒突破瓶颈的时候，OpenAI 直接一次性给出60s的视频。这不只是简单超越，而是直接掀桌子。

案例2：可以轻松切换多镜头的，超级预告片

Sora能在同一视频中设计出多个镜头，同时保持角色和视觉风格的一致性。

要知道，以前的AI视频，都是单镜头生成的。

而这次OpenAl能在多角度的镜头切换中，就能实现对象的一致性，这不得不说是个奇迹！这种级别的多镜头一致性，是Gen 2和Pika都完全无法企及的……

Prompt: A movie trailer featuring the adventures of the 30 year old space man wearing ared wool knitted motorcycle helmet, blue sky, salt desert, cinematic style, shot on35mm film, vivid colors.

案例3：几秒钟，完成几个月的工作

想当初，皮克斯在创作电影《怪物公司》时，为了处理怪物在移动时超级复杂的毛发纹理，技术团队直接连肝几个月。

而Sora 轻而易举地就实现了，甚至，从没有人教过它！

OpenAI表示，Sora目前为未完成的产品，可能难以消化复杂的物理或空间细节，导致生成不合逻辑的影片，例如：人在跑步机上可能跑错方向，或博物馆影片中地板会「移动」及影片中被咬的饼干不会出现被咬过后的缺口等。

初期仅提供给「红队成员」进行风险测试，及由部分视觉艺术、视觉设计或是影片工作者进测试与反馈，未开放大众使用。

不过，依照Open AI技术推进及AI成长速度，一般预料，明年文字生成影片这项功能，就会有机会进入普通消费者可以使用的阶段。

看来AGI是真的要来了！