【灵思资讯】Sora已成过去式，谷歌借Veo 4泄露亮剑！9秒「香蕉」视频展现多机位实力- 大数跨境

首页

【灵思资讯】Sora已成过去式，谷歌借Veo 4泄露亮剑！9秒「香蕉」视频展现多机位实力

灵思极智

2026-05-28

【灵思导读】无论最终命名为Veo 4还是Gemini Omni，此次泄露事件已足够震撼：AI视频不再只是短视频工具，而是进化为具备导演思维的叙事生产力工具。答案将在谷歌I/O大会当天揭晓，而整个行业格局将迎来重塑。

谷歌I/O大会开幕前夕，Veo 4遭到提前曝光。

此前，教授在黑板上推演公式的逼真视频已在网络刷屏。

当前，有网友推测Veo 4/Omni能够生成完整的、多角度的场景，在保持连贯性的前提下，流畅地切换视角。

该模型还升级了原生音频同步能力，可支持对话、环境音与音乐。

生成的视频片段最长可达9秒，分辨率为720p。

在部分泄露的示例中，依然能看到连贯性问题，但完全同步的多机位场景，看起来确实令人印象深刻。

此次关于Veo 4（或Gemini Omni）的泄露，远非简单的参数调整。

它更像一场关乎「叙事主导权」的底层变革。

当AI开始学习从多个视角审视同一时刻，它其实已从「画匠」进化为具备空间逻辑思维的「导演」。

爆料人Pankaj Kumar甚至推测，谷歌本可轻松生成15秒视频，因算力限制才未实现。因此，谷歌将重点解决效率问题。

但要注意，目前仅有Kumar一人的转述，最终是Veo 4还是Gemini Omni，需等待谷歌I/O大会揭晓。

AI视频掌握了「镜头切换」能力

为何「多机位」能力如此令人震惊？

回溯一年前。

Sora横空出世时，众人惊叹于「AI能拍摄60秒电影」。

但仔细审视会发现一个问题：那60秒内，镜头是静止的，或者说，是连续不断的。

机位在场景中平滑移动、推拉摇移，但缺少「切换」。

Runway Gen-4等所有同类产品皆如此，生成的视频本质上是「一个长镜头」，即便镜头在动，也是同一台摄影机的连续位移。

为何无法切换？

因为对AI而言，「切换镜头」意味着：同一场景、同一组人物、在同一时刻，从完全不同的视角再生成一次，并且要确保服装颜色、桌上杯子的位置、人物表情连贯一致。

这相当于将物理一致性、空间一致性、时间一致性这三重压力叠加在一起，业界一年来一直在攻克这个难题，尚未有人真正实现。

传统影视从业者会告诉你，这在剧组中称为「机位调度」，是导演的工作，而非单纯摄影的职责。

摄影师负责「画面是否好看」，导演则负责「这场戏如何切换，才能让观众看懂、看得过瘾」。

多机位的本质，是将场景拆解为「叙事」单元。

如果Pankaj Kumar的爆料属实，那么Veo 4已将此任务从「导演」压缩进了「模型权重」。

换句话说，你不再是「让AI拍一个镜头」，而是「让AI拍一场戏」。

这是一个量级的飞跃。

过去，AI视频是「短视频素材生产工具」，可用于制作片头转场、背景画面。

而此次，AI终于升级为「叙事生产工具」。

当然，前提是泄露属实，且I/O大会当天的演示能真正跑通。

同步音频补齐了最后一块短板

爆料中第二个被反复提及的要点是音频。

具体描述为：Veo 4能够原生生成同步的对话与环境音，甚至能根据画面情境自动搭配背景音乐。

事实上，Veo 3已能生成原生音频，这并非Veo 4的全新创造。

去年5月Veo 3发布时，谷歌宣传的最大亮点之一就是「native audio」：视频中的脚步声、对话声、环境噪音都与画面一同在模型内生成，无需后期对齐。

这一特性使Veo 3从同类产品中脱颖而出。

但Veo 3存在两个不足。

其一是音质本身。

5月11日第一批用户实测时，Reddit上期待值很高，反馈总体积极，但具体提升到何种程度尚不明确，预计应比Veo 3那种「AI配音感」更进一步。

其二是背景音乐。

Veo 3主要处理环境音和对话，情境化的配乐基本不在其能力范围内。

Kumar的爆料明确提到「contextual background music generated natively」，如果真能实现，意味着AI视频从此自带背景音乐。

将多机位与原生背景音乐结合起来，便能感受到谷歌这盘棋的轮廓：它比拼的不是「谁的画面更细腻」，也不是「谁的物理效果更逼真」。

它比拼的是「谁能直接产出一条完整的成片」。

镜头能切换，声音能对位，背景音乐自带。剩下的，只差一个剧本。

Sora已成过去，谷歌选择此时摊牌

Veo 4泄露的时间点，精准地卡在Sora倒下的废墟之上。

4月26日，OpenAI的Sora应用正式停止服务。

回顾Sora的失败原因，是一部完整的商业悲剧。

成本高昂。据称，Sora的推理成本每日高达100万至1500万美元，比文本和图像生成贵了不止一个数量级，在整个生命周期内未能将单位成本降下来。

用户流失。月活跃用户峰值曾达100万，停服前已跌破50万，30天用户留存率不足8%。

无法盈利。整个生命周期内的应用内收入约为210万美元，连一天的算力成本都无法覆盖。

3月24日，Sora官方账号发布告别信息——「We're saying goodbye to the Sora app」。

其API将于9月24日彻底关闭。

商业层面的差距已体现在数据中。而技术层面的代差，此次泄露算是将底牌亮明。

在OpenAI倒下的位置上，谷歌选择了一个非常贴近的时间点登场。

I/O大会当天，谷歌还将亮出哪些牌

Omni只是此次泄露的冰山一角。

在同一波泄露中，谷歌即将推出的多款Gemini模型被意外推送至生产环境的API——包括Gemini 3 Flash、3.1全系列（Pro、Flash Image、Lite、TTS），以及专注于高保真音频生成的Lyria 3 Pro。

最重磅的一句话藏在内部文档里——「Omni模型将针对所有核心模型推出专门的Agent版本。」

意思非常直接。

谷歌计划将视频生成、音频生成、Agent框架一同在I/O大会上展示。

一年前，Pichai表示要将Gemini「融入每一个谷歌产品中」。

而这一次，他很可能让所有人亲眼见证这句话的实现。

———— END ————

灵思极智旗下“极智系列”三款AI智能应用

灵思极智让AI为各行业赋能

打造[超级企业]+[超级个体]

“让人回归人的价值”！

用灵思，创极智！点击关注“灵思极智”

关注后，两步置顶服务号，可第一时间收到灵思极智推文！

【声明】内容源于网络

灵思极智

AI领域超级创造工厂，用灵思，创极智！

内容 176

粉丝 0

灵思极智 AI领域超级创造工厂，用灵思，创极智！

总阅读135

粉丝0

内容176