【灵思导读】 无论最终命名为Veo 4还是Gemini Omni,此次泄露事件已足够震撼:AI视频不再只是短视频工具,而是进化为具备导演思维的叙事生产力工具。答案将在谷歌I/O大会当天揭晓,而整个行业格局将迎来重塑。
谷歌I/O大会开幕前夕,Veo 4遭到提前曝光。
此前,教授在黑板上推演公式的逼真视频已在网络刷屏。
当前,有网友推测Veo 4/Omni能够生成完整的、多角度的场景,在保持连贯性的前提下,流畅地切换视角。
该模型还升级了原生音频同步能力,可支持对话、环境音与音乐。
生成的视频片段最长可达9秒,分辨率为720p。
在部分泄露的示例中,依然能看到连贯性问题,但完全同步的多机位场景,看起来确实令人印象深刻。
此次关于Veo 4(或Gemini Omni) 的泄露,远非简单的参数调整。
它更像一场关乎「叙事主导权」的底层变革。
当AI开始学习从多个视角审视同一时刻,它其实已从「画匠」进化为具备空间逻辑思维的「导演」。
爆料人Pankaj Kumar甚至推测,谷歌本可轻松生成15秒视频,因算力限制才未实现。因此,谷歌将重点解决效率问题。
但要注意,目前仅有Kumar一人的转述,最终是Veo 4还是Gemini Omni,需等待谷歌I/O大会揭晓。
AI视频掌握了「镜头切换」能力
为何「多机位」能力如此令人震惊?
回溯一年前。
Sora横空出世时,众人惊叹于「AI能拍摄60秒电影」。
但仔细审视会发现一个问题:那60秒内,镜头是静止的,或者说,是连续不断的。
机位在场景中平滑移动、推拉摇移,但缺少「切换」。
Runway Gen-4等所有同类产品皆如此,生成的视频本质上是「一个长镜头」,即便镜头在动,也是同一台摄影机的连续位移。
为何无法切换?
因为对AI而言,「切换镜头」意味着:同一场景、同一组人物、在同一时刻,从完全不同的视角再生成一次,并且要确保服装颜色、桌上杯子的位置、人物表情连贯一致。
这相当于将物理一致性、空间一致性、时间一致性这三重压力叠加在一起,业界一年来一直在攻克这个难题,尚未有人真正实现。
传统影视从业者会告诉你,这在剧组中称为「机位调度」,是导演的工作,而非单纯摄影的职责。
摄影师负责「画面是否好看」,导演则负责「这场戏如何切换,才能让观众看懂、看得过瘾」。
多机位的本质,是将场景拆解为「叙事」单元。
如果Pankaj Kumar的爆料属实,那么Veo 4已将此任务从「导演」压缩进了「模型权重」。
换句话说,你不再是「让AI拍一个镜头」,而是「让AI拍一场戏」。
这是一个量级的飞跃。
过去,AI视频是「短视频素材生产工具」,可用于制作片头转场、背景画面。
而此次,AI终于升级为「叙事生产工具」。
当然,前提是泄露属实,且I/O大会当天的演示能真正跑通。
同步音频补齐了最后一块短板
爆料中第二个被反复提及的要点是音频。
具体描述为:Veo 4能够原生生成同步的对话与环境音,甚至能根据画面情境自动搭配背景音乐。
事实上,Veo 3已能生成原生音频,这并非Veo 4的全新创造。
去年5月Veo 3发布时,谷歌宣传的最大亮点之一就是「native audio」:视频中的脚步声、对话声、环境噪音都与画面一同在模型内生成,无需后期对齐。
这一特性使Veo 3从同类产品中脱颖而出。
但Veo 3存在两个不足。
其一是音质本身。
5月11日第一批用户实测时,Reddit上期待值很高,反馈总体积极,但具体提升到何种程度尚不明确,预计应比Veo 3那种「AI配音感」更进一步。
其二是背景音乐。
Veo 3主要处理环境音和对话,情境化的配乐基本不在其能力范围内。
Kumar的爆料明确提到「contextual background music generated natively」,如果真能实现,意味着AI视频从此自带背景音乐。
将多机位与原生背景音乐结合起来,便能感受到谷歌这盘棋的轮廓:它比拼的不是「谁的画面更细腻」,也不是「谁的物理效果更逼真」。
它比拼的是「谁能直接产出一条完整的成片」。
镜头能切换,声音能对位,背景音乐自带。剩下的,只差一个剧本。
Sora已成过去,谷歌选择此时摊牌
Veo 4泄露的时间点,精准地卡在Sora倒下的废墟之上。
回顾Sora的失败原因,是一部完整的商业悲剧。
成本高昂。据称,Sora的推理成本每日高达100万至1500万美元,比文本和图像生成贵了不止一个数量级,在整个生命周期内未能将单位成本降下来。
用户流失。月活跃用户峰值曾达100万,停服前已跌破50万,30天用户留存率不足8%。
无法盈利。整个生命周期内的应用内收入约为210万美元,连一天的算力成本都无法覆盖。
3月24日,Sora官方账号发布告别信息——「We're saying goodbye to the Sora app」。
其API将于9月24日彻底关闭。
商业层面的差距已体现在数据中。而技术层面的代差,此次泄露算是将底牌亮明。
在OpenAI倒下的位置上,谷歌选择了一个非常贴近的时间点登场。
I/O大会当天,谷歌还将亮出哪些牌
Omni只是此次泄露的冰山一角。
在同一波泄露中,谷歌即将推出的多款Gemini模型被意外推送至生产环境的API——包括Gemini 3 Flash、3.1全系列(Pro、Flash Image、Lite、TTS),以及专注于高保真音频生成的Lyria 3 Pro。
最重磅的一句话藏在内部文档里——「Omni模型将针对所有核心模型推出专门的Agent版本。」
意思非常直接。
谷歌计划将视频生成、音频生成、Agent框架一同在I/O大会上展示。
一年前,Pichai表示要将Gemini「融入每一个谷歌产品中」。
而这一次,他很可能让所有人亲眼见证这句话的实现。
———— END ————
灵思极智旗下“极智系列”三款AI智能应用
关注后,两步置顶服务号,可第一时间收到灵思极智推文!

