首页

OpenAI Sora到底有多强！看完就明白了，颠覆视频生成领域，附上体验入口

马哥随笔

2024-02-18

导读：OpenAI Sora到底有多强！看完就明白了，颠覆视频生成领域，附上体验入口

马哥随笔丨作者 / 马哥

跟着有结果的人学习提升认知少走弯路

2024年2月16日凌晨（美国时间2月15日），OpenAI发布了名为Sora的“文生视频”（text-to-video）工具，这消息简直让全世界都震惊了！人们在各种社交平台上用各种语言纷纷惊呼：现实，瞬间颠覆了！

这是一段咒语（Prompt）：

A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick. She walks confidently and casually. The street is damp and reflective, creating a mirror effect of the colorful lights. Many pedestrians walk about.

翻译成中文就是：一位时尚的女士，在充满温暖发光的霓虹灯和动画城市标志的东京街上行走，她穿着黑色的皮夹克，一条长虹裙和黑色的靴子，背着黑色的手提包。他戴着太阳镜，涂着红色的口红，走路自信而随意，街道潮湿而且具有反射性，营造出五光10色灯光的镜面效果，旁边有行人在四处走动。

意味着通用人工智能，也就是AGI，可能会从10年缩短至1年

因为它可以轻松创建包含多个角色，特定动作主题和背景细节的复杂场景。

你需要获得什么视频，你只要输入一句话就可以，AI就可以帮我们轻松一键生成。而且，生成视频的时长已经提升到1分钟，你说以后谁还会苦哈哈的拍视频，不仅要花那么多钱买设备，还要学习各种拍摄技术。

费那么多时间干嘛！

现在AI文生视频就可以分分钟搞定了，如果说ChatGPT（还不会访问GPT的记得联系马哥获取教程）的诞生，它已经对程序员、艺术家、以及普通重复性的工作造成巨大影响！

那么Sora的文生视频技术出现势必会对视频创作领域，带来降维式的打击。

因为OpenAI Sora文生视频大模型，它已经能够理解物体在物理世界中的存在，它能够准确解释道具并生成表情丰富的角色，不仅如此，它还能基于静态图像生成视频，填充或者扩展稀有视频的帧。

大家可以看一下，这只站在窗台上的小狗，它也是由OpenAI Sora生成的，小狗的表情动作，跃跃欲试的那种感觉，AI把握的非常到位啊！它已经很难让你察觉这是由AI生成的，因为它的场景运镜，几乎已经做到了以假乱真的地步。

我们再来看一下这只跃跃欲试的小猫，你能发现这是假视频吗，我还真以为是哪个视频博主拍摄的啊，但他确实有Sora AI生成的视频。

还有这个从上向下俯拍的场景，我敢肯定啊，对于99%以上的人来说，都会误以为自己有无人机拍摄的视频。因为我们可以看到他下面的人啊，实在是太逼真了，这哪像是AI生成的呀，但是不可否认的是，它确实是OpenAI Sora的产物。

对于一个视频博主来说，以后要创建这种无人机拍摄场景，你几乎都不需要去购买设备，只要你给的提示值足够详细，你想要某种无人机拍摄的素材，都可以通过AI来搞定。

那么现在为什么它如此强悍呢？

因为Sora它是一个基于大规模训练的文本控制视频生成扩展模型，不仅能够生成长达一分钟的高清视频，涵盖广泛的视觉数据类型和分辨率，而且又在视频和图像的压缩前在空间中训练过，它能够将其分解为时空位置补定。

实现了可扩展的视频生成，Sora还展现出一些模拟物理世界和数字世界的能力，比如还有三维一致性的和交互，它揭示了继续扩大视频生成模型的规模，从而来发展高能力模拟器的前景，不仅可以生成变化分辨率，它可以生成不同长度和纵横比的视频。

如果，你想第一时间体验这个视频生成技术，那么你需要进入到OpenAI Sora的体验入口，链接会放在文章下方或者你可以通过私信的方式获取。

目前他只对测试人员开放，但是不得不说啊，当一个质量更好时长更长，应用场景更广泛的视频模型，摆在我们面前，那么像之前这种Runway，一次性只能生成4-18秒的视频生成工具。

它曾经创造的天花板已经被打破了，因为OpenAI Sora的能力是革命性的，不仅生成视频长度更长，最关键的是，它镜头的前后连贯性和一致性啊，是空前绝后的，生成的视频不仅高清，而且画面超逼真，不仅可以生成人物画面，也能够轻松生成动物和自然风光。

比如像这个视频，几只巨大的毛茸茸的猛犸象，踏着白雪皑皑的草地向我们走进，这种低相机的视角，可以令人惊叹地捕捉到大型毛茸茸的哺乳动物，景深把握的十分到位。

当然用3D和动漫风格生成虚拟场景对solo来说也不在话下，比如像这个动画场景的特写，这是一个毛茸茸的小怪物，跪在即将融化的红蜡烛旁边，活灵活现的。

其实Sora这次能够突破视频长度和高度逼真的瓶颈，其实也在摸着DELL-E这款大模型的石头过河，在这之前，为了在保证生成画质的前提下，视频时长能够突破10秒，对于大多数视频模型而言都是难以企及的高度，因为这涉及到循环网络、生成对抗网络、Diffusion等主流视频建模范式的束缚，通常只能学习某一类视频或者数据较短的视频。