

刚刚，Google Veo 3.1 发布，Sora 还香吗？

AGI Hunt

2025-10-16

导读：可生成分钟级时长视频

刚刚，Google 发布了 Veo 3.1.

全面进化

相比于 OpenAI Sora 1 到 Sora 2 的大版本号提升，Google DeepMind 团队这次带来的 Veo 3.1 的小版本版本迭代，则是低调并彻底地重新定义了 AI 视频生成的天花板。

新版本中，让人最为亮眼的是对叙事的深度理解，它能准确捕捉你想要讲述的故事，生成的纹理质感更加真实，图像转视频的能力也得到了显著提升。

更重要的是，几乎所有功能都加入了音频生成。视频生成，再也不是「默片」了。

多素材融合

Veo 3.1 的「Ingredients to Video」功能让人印象深刻。

你可以提供多张包含不同人物和物体的参考图片，Veo 会将这些元素智能整合到一个完整的场景中，自然，也是自带音效。

我们不再需要再为了一个场景去找完美匹配的素材，只要把想要的元素丢给它，Veo 就能组装出一个有声有色的完整场景。

场景延展

「Scene Extension」功能可以创建超过一分钟的连续视频片段，继续原始镜头的动作。

每个生成的视频都基于前一个片段的最后一秒来保持故事的连续性，背景和人物都能保持一致。

这解决了“连贯性”这个 AI 视频生成中最为头疼的问题（之一）。

首尾帧

只需给出第一帧和最后一帧，Veo 就能生成中间的完整过渡动画。

Google 把这个功能叫做「From A to B」，特别适合创建史诗级的转场效果。

定义好开始和结束的画面，中间的魔法，交给 Veo 3.1 就好。

精准编辑

新增的编辑功能，则可以让创作者直接在 Flow 中进行更精细的调整：

网友 Matt Shumer 用 Veo 3.1 和 Sora 2 做了多个场景的对比测试（先是 Veo 3.1，然后是 Sora 2）：

测试一：「一群人打排球」

测试二：「滑板手做 kickflip」

Veo 3.1 特别喜欢慢动作效果：

测试三：「体操运动员在平衡木上翻转，电影感」

测试四：「斑点狗在意大利布拉诺岛穿越复杂障碍赛道」

从这些对比来看，两个模型各有千秋，虽然 Veo 3.1 在动作连贯性和物理真实感上确实有其独到之处，但我个人，还是更喜欢 Sora 2 一些。

使用 Veo 3.1 的方式有以下几种：

Flow 平台：http://flow.google/
Gemini API（开发者）：https://ai.google.dev/gemini-api/docs/video
Vertex AI（企业客户）：https://cloud.google.com/vertex-ai/generative-ai/docs/model-reference/veo-video-generation
Gemini 应用（普通用户）：http://gemini.google.com/veo