刚刚,Google 发布了 Veo 3.1.
全面进化
相比于 OpenAI Sora 1 到 Sora 2 的大版本号提升,Google DeepMind 团队这次带来的 Veo 3.1 的小版本版本迭代,则是低调并彻底地重新定义了 AI 视频生成的天花板。
新版本中,让人最为亮眼的是对叙事的深度理解,它能准确捕捉你想要讲述的故事,生成的纹理质感更加真实,图像转视频的能力也得到了显著提升。
更重要的是,几乎所有功能都加入了音频生成。视频生成,再也不是「默片」了。
四大核心能力
多素材融合
Veo 3.1 的「Ingredients to Video」功能让人印象深刻。
你可以提供多张包含不同人物和物体的参考图片,Veo 会将这些元素智能整合到一个完整的场景中,自然,也是自带音效。
我们不再需要再为了一个场景去找完美匹配的素材,只要把想要的元素丢给它,Veo 就能组装出一个有声有色的完整场景。
场景延展
「Scene Extension」功能可以创建超过一分钟的连续视频片段,继续原始镜头的动作。
每个生成的视频都基于前一个片段的最后一秒来保持故事的连续性,背景和人物都能保持一致。
这解决了“连贯性”这个 AI 视频生成中最为头疼的问题(之一)。
首尾帧
只需给出第一帧和最后一帧,Veo 就能生成中间的完整过渡动画。
Google 把这个功能叫做「From A to B」,特别适合创建史诗级的转场效果。
定义好开始和结束的画面,中间的魔法,交给 Veo 3.1 就好。
精准编辑
新增的编辑功能,则可以让创作者直接在 Flow 中进行更精细的调整:
-
「Insert」功能可以在场景中添加新元素,从真实细节到奇幻生物都能处理,Flow 会自动处理阴影和光照,让添加的内容看起来浑然天成
-
即将推出的移除功能可以无缝删除不需要的物体或角色,AI 会重建背景和周围环境,就像那个物体从未存在过
与 Sora 2 正面对决
网友 Matt Shumer 用 Veo 3.1 和 Sora 2 做了多个场景的对比测试(先是 Veo 3.1,然后是 Sora 2):
测试一:「一群人打排球」
测试二:「滑板手做 kickflip」
Veo 3.1 特别喜欢慢动作效果:
测试三:「体操运动员在平衡木上翻转,电影感」
测试四:「斑点狗在意大利布拉诺岛穿越复杂障碍赛道」
从这些对比来看,两个模型各有千秋,虽然 Veo 3.1 在动作连贯性和物理真实感上确实有其独到之处,但我个人,还是更喜欢 Sora 2 一些。
使用方式
使用 Veo 3.1 的方式有以下几种:
-
Flow 平台:http://flow.google/
-
Gemini API(开发者):https://ai.google.dev/gemini-api/docs/video
-
Vertex AI(企业客户):https://cloud.google.com/vertex-ai/generative-ai/docs/model-reference/veo-video-generation
-
Gemini 应用(普通用户):http://gemini.google.com/veo
而据 Google 的数据,Flow 1 发布五个月以来已经生成了超过 2.75 亿个视频,这个数字,也足以说明当前高质量 AI 视频生成的火爆。
再分享一个网友制作的我觉得不错的视频:
没有大师 Sam Altman 这样的爆火营销,Veo 3.1 就这么发布了。

那么,你觉得:Sora,还香吗?
Google Veo 3.1: https://x.com/GoogleDeepMind/status/1978491999029219364
[2]veo-updates-flow: https://blog.google/technology/ai/veo-updates-flow/
👇
👇
👇
另外,我还用AI 进行了全网的AI 资讯采集,并用AI 进行挑选、审核、翻译、总结后发布到《AGI Hunt》的实时AI 快讯群中。
这是个只有信息、没有感情的 AI 资讯信息流(不是推荐流、不卖课、不讲道理、不教你做人、只提供信息、希望能为你节省一些时间)
欢迎加入!
也欢迎加群和7000+群友交流。

