0
0
分享网址

OpenAI 又一次血洗了整个 AI 界!

硬核刘大
2024-03-14
2922
大数跨境 导读:16日凌晨,ChatGPT 母公司 OpenAI 正式上线了一个颠覆级的文生视频模型——Sora。

OpenAI 又一次血洗了整个 AI 界!

「Sora」能根据使用者给予的文字提示生成短影片,内容包含多个角色及特定类型的动态画面,影片长度最多60秒,也可依据静态图像制作动画。

一、关于Sora 模型

OpenAI 官方文档介绍:Sora是一种扩散模型,主要通过静态噪音的视频开始生成视频,然后再通过多个步骤去除噪音,逐渐转换视频。

Sora 与 ChatGPT 一样采用 Transformer 架构,并使用了 DALL-E 3 中的重述技术,是一种为视觉训练数据生成高精准描述性的字幕。

所以,Sora 在生成视频过程中精准还原用户的文本提示语义。

除了文本生成视频之外,Sora 还能根据图像生成视频,并能准确地对图像内容进行动画处理。也能提取视频中的元素,对其进行扩展或填充缺失的帧,功能非常全面。

二、Sora 案例演

案例1:一个简单的指令,60s 视频一镜到底
Prompt:
“A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. she wears a black leather jacket, a long red dress, and black boots, and carries a black purse. she wears sunglasses and red lipstick. she walks confidently and casually. the street is damp and reflective, creating a mirror effect of the colorful lights. many pedestrians walk about.”
中文指令:
“一位时尚女性走在充满温暖霓虹灯和动画城市标牌的东京街道上。她穿着黑色皮夹克、红色长裙和黑色靴子,拎着黑色钱包。她戴着太阳镜,涂着红色口红。她走路自信而随意。街道潮湿且反光,在彩色灯光的照射下形成镜面效果。很多行人走来走去。”
在 Runway、Pika 等 AI 视频工具还按秒突破瓶颈的时候,OpenAI 直接一次性给出60s的视频。这不只是简单超越,而是直接掀桌子。
案例2:可以轻松切换多镜头的,超级预告片
Sora能在同一视频中设计出多个镜头,同时保持角色和视觉风格的一致性。
要知道,以前的AI视频,都是单镜头生成的。
而这次OpenAl能在多角度的镜头切换中,就能实现对象的一致性,这不得不说是个奇迹!这种级别的多镜头一致性,是Gen 2和Pika都完全无法企及的……
Prompt: A movie trailer featuring the adventures of the 30 year old space man wearing ared wool knitted motorcycle helmet, blue sky, salt desert, cinematic style, shot on35mm film, vivid colors.
案例3:几秒钟,完成几个月的工作
想当初,皮克斯在创作电影《怪物公司》时,为了处理怪物在移动时超级复杂的毛发纹理,技术团队直接连肝几个月。
而Sora 轻而易举地就实现了,甚至,从没有人教过它!
OpenAI表示,Sora目前为未完成的产品,可能难以消化复杂的物理或空间细节,导致生成不合逻辑的影片,例如:人在跑步机上可能跑错方向,或博物馆影片中地板会「移动」及影片中被咬的饼干不会出现被咬过后的缺口等。
初期仅提供给「红队成员」进行风险测试,及由部分视觉艺术、视觉设计或是影片工作者进测试与反馈,未开放大众使用。
不过,依照Open AI技术推进及AI成长速度,一般预料,明年文字生成影片这项功能,就会有机会进入普通消费者可以使用的阶段。
 看来AGI是真的要来了!
针对OpenAI推出的「Sora产品,你有啥想说的呢?也可以在评论区说出你的看法。

 

【版权声明】秉承互联网开放、包容的精神,大数跨境欢迎各方(自)媒体、机构转载、引用我们原创内容,但要严格注明来源大数跨境;同时,我们倡导尊重与保护知识产权,如发现本站文章存在版权问题,烦请将版权疑问、授权证明、版权证明、联系方式等,发邮件至 zoey@10100.com,我们将第一时间核实、处理。
硬核刘大
聊聊大家都喜欢的事
内容 190
粉丝 2
关注