世界模型:2026年多模态技术的关键突破口
我们相信2026年将是多模态技术爆发之年,其中视频生成将加速走向规模化应用,而世界模型(World Model)有望实现从科研突破迈向工程落地的关键跃迁。
长期以来,世界模型概念较为模糊;近半年来,随着具身智能与真实交互场景中出现初步落地案例,其技术路径逐渐收敛,轮廓日益清晰。
与语言模型相比,世界模型解决的是更底层的时空理解与预测问题——不仅预测“下一个token”,更要预测“下一帧”与“下一个动作”;与视频生成模型相比,世界模型需在交互性、实时性、长时记忆和物理合理性四方面实现更高要求。
行业正据此分化为两条主流技术路线:一是以实时视频生成为核心的“空间路线”,面向文娱、游戏等C端消费场景;二是以显式3D结构建模为核心的“时间路线”,服务于机器人、自动驾驶等AI agent领域。
世界模型是什么?
目前业界对世界模型尚无统一定义。Yann LeCun将其类比为人脑内部表征,可模拟未来行动并预测其对世界的改变;NVIDIA则定义为能理解物理规则与空间特性的神经网络[2]。
本文将其定义为:**能理解时间和空间规律,并基于当前环境与动作,模拟未来世界演化的模型**[2]。
世界模型重要性日益凸显,源于三大趋势:
- 语言作为有损压缩已逼近能力边界,空间智能成为下一代智能的重要来源;
- Autoregressive Transformer与Diffusion模型融合加速,生成模型开始呈现智能层面的scaling law;
- 具身智能发展倒逼高保真虚拟世界需求,现实世界数据采集难以满足指数级扩展要求[2]。
世界模型 vs 视频生成:四大关键进阶方向
世界模型与视频生成高度相关,但需在以下四方面实现质的提升[3]:
1. 长时记忆:构建持续一致的世界演化能力
当前视频生成模型通常仅支持十秒级片段生成;理想的世界模型应具备无固定时长限制的持续生成能力,并保障全局时空一致性——数十秒前生成的物体状态需稳定延续,避免凭空消失或位置突变[3]。
受限于Transformer序列长度,简单延长上下文会导致内存爆炸与推理延迟上升。业界正探索引入NeRF、Gaussian Splatting等显式3D结构作为“外部记忆库”,通过周期性重建与存储实现“生成–重建–再生成”的闭环机制[3]。
长时记忆仍是公认的核心难题:隐式记忆易失真,显式记忆在动态4D场景中又面临表示与维护成本过高的挑战,突破将决定世界模型能否迈向开放世界级持续模拟[3]。
2. 交互性:支持任意时刻的动作注入与响应
世界模型必须支持在任意帧动态接收外部动作信号(如玩家按键、机器人指令),并据此影响后续演化[3]。
DeepMind Genie系列提出“潜在动作空间(Latent Action)”概念,使模型能从纯视频中无监督学习隐含动作因子,让海量无标签互联网视频参与训练[3]。
游戏引擎数据因具备明确动作标签,亦是重要训练来源。无论何种路径,支持动作条件控制的视频生成能力,都是构建可玩世界模型的必要前提[3]。
3. 实时性:满足交互场景的低延迟硬约束
直播可容忍约1秒延迟,游戏需低于0.1秒,VR等沉浸式应用理想延迟应控制在0.01秒内。而扩散模型每帧需数十步去噪,常规优化难以突破30FPS及亚秒级延迟[3]。
当前主流解法包括:DMD(Distribution Matching Distillation)将50步扩散压缩至4步;Self-Forcing、APT2等训练策略让模型在训练阶段即模拟自身推理过程,单卡实现17FPS、亚秒级延迟且保持高画质[3]。
Self-Forcing是一种自回归视频扩散模型训练范式:训练时让模型基于自身生成输出而非真实帧进行下一步预测,从而消除训练–推理分布不匹配问题,显著提升长序列生成质量、稳定性与实时性[3]。
4. 物理合理性:从视觉可信迈向物理可信
娱乐应用只需“视觉上过得去”,但自动驾驶、机器人等高风险场景要求生成结果严格符合物理规律,否则可能误导AI决策[3]。
当前模型虽在常规物理现象(如动力学)上有一定隐式理解,但在极端条件(如超高速碰撞、复杂关节力学)下仍易产生物理幻觉[3]。
主流改进方向包括:后处理物理校正,或直接耦合可微物理引擎。例如NVIDIA Cosmos在扩散生成后,利用PhysX引擎修正帧间运动,确保符合碰撞与重力规律[3]。
两种主流技术路线:空间优先 vs 时间优先
在尚未大规模scale up的当下,学界与业界正沿着不同目标分化探索——实时性与物理准确性难以同步兼顾,由此形成两大主干路径[4]:
- 视频世界模型路线:聚焦实时性、交互性与长时记忆,物理合理性次之,适用于文娱、游戏等to C场景;
- 3D/4D结构化路线:以物理准确性为首要目标,兼顾交互性、持久性与实时性,面向机器人、自动驾驶等for AI agent领域[4]。
路线一:实时视频世界模型
该路线以Minecraft等第一视角游戏数据为主要训练源,核心目标是达成毫秒级响应与用户可干预生成流程[4]。
典型应用场景包括:
- 互动内容创作与新型引擎:替代传统3D建模流程,转向“绘图+行走采集”;引擎核心由3D实时渲染转向视频原生的生成式推理,驱动世界模拟与内容生成;
- 直播与虚拟形象:基于人脸/角色素材,实时驱动虚拟形象表情与动作,输入源为摄像头或动捕设备;
- AR/VR:作为动态背景生成器,实时更新用户所处虚拟环境,视角与交互动作由头显/控制器提供[4]。
商业化节奏上,未来1–3年将以SDK/API形态服务MCN、游戏工作室与独立开发者;3–5年内可能出现video-native engine平台公司,或以爆款新形态内容直达终端用户[4]。
路线二:3D/4D结构化世界模型
该路线普遍采用NeRF或3D Gaussian Splatting等显式3D表征建模场景,再训练模型直接输出3D结构,最后渲染生成图像。斯坦福李飞飞团队的World Labs即属此列——其输出非视频帧序列,而是可自由旋转视角的3D场景表示[4]。
优势在于3D一致性极强:多视角下物体形状与空间位置稳定,几何拓扑关系清晰,对机器人导航、AR数字孪生等任务尤为关键;同时便于叠加质量、碰撞等物理属性,提升真实性与可交互性[4]。
劣势在于数据获取与计算成本高:高质量3D标注数据远少于2D视频;模型参数量大、推理复杂,依赖专用硬件。适用场景多为强几何约束仿真,如室内机器人导航,要求门窗、墙体位置精确可靠[4]。
NVIDIA Cosmos是融合经典物理模拟的代表:内置PhysX物理守护机制,自动过滤穿模、能量守恒违规等不合理现象,定位为开放平台,支持开发者微调适配特定机器人或仿真需求[4]。
市场玩家四象限格局
依据技术路径差异,我们将主要玩家划分为四象限:[5]
- 横轴:左为视频像素生成(Video-based),右为显式3D/物理结构表示(如3D Gaussian Splatting);
- 纵轴:上为服务人类用户(文娱、游戏、XR),下为服务AI agent(仿真、训练、评估)[5]。
典型分布如下:
- Decart、Odyssey等偏娱乐与游戏的视频生成模型位于左上象限;
- World Labs等强调可漫游空间体验与3D内容生成的公司位于右上象限;
- General Intuition等视频导航类世界模型位于左下象限;
- Cosmos、Tesla世界模型等机器人世界模型位于右下象限[5]。
1. World Labs:3D一致性的标杆
World Labs是当前估值最高的世界模型初创公司之一,立足李飞飞“空间智能(Spatial Intelligence)”理论,主张真正智能必须具备三维空间中的感知、推理、行动与建模能力[5]。
其核心技术聚焦3D一致性与持久性:区别于Sora等模型可能出现的物体“morphing”漂移,World Labs致力于构建具有内部几何结构与物体恒常性的“世界”[5]。
技术架构:LWM与RTFM
核心技术为大型世界模型(Large World Models, LWMs)与实时帧模型(Real-Time Frame Model, RTFM)[5]。
- 端到端学习物理规律:RTFM是自回归Diffusion Transformer,无需人工编写光线追踪代码,通过海量视频数据自主学习光照、阴影、透视等物理现象;
- 隐式3D表征:不构建显式3D模型,而是将2D图像转化为高维神经激活状态(KV Cache),隐式编码场景3D结构;
- 空间记忆:引入“姿态帧(Posed Frames)”概念,每帧携带空间坐标,用户漫游时可检索邻近帧作为上下文[5]。
RTFM模糊了三维重建与生成的传统边界:视点密集时表现为高质量重建(类似NeRF),稀疏时平滑过渡为生成模式,利用先验知识“脑补”未见区域[5]。
产品:Marble
Marble是基于浏览器的交互式3D世界生成平台,支持文本、图像、视频或多视角全景输入,生成可交互、可漫游的三维场景[5]。
不同于仅输出视频流的模型,Marble输出完整3D环境,支持导出为高斯点云、网格或视频格式;用户可通过Chisel工具构建空间结构后再由AI填充细节,实现AI原生编辑[5]。
其生成世界支持自由视角移动,光影反射随视角实时变化,物理真实感强;已开放免费与订阅制,按月生成次数与功能权限分级定价,服务游戏开发、影视创作与VR搭建等场景[5]。
截至目前,World Labs融资总额约2.3亿美元,估值超10亿美元。投资方包括a16z、NEA、Radical Ventures、NVIDIA(NVentures)、AMD Ventures、Adobe Ventures,以及Geoffrey Hinton、Jeff Dean、Eric Schmidt等个人投资者[5]。
2. General Intuition:游戏数据驱动的时空推理
作为游戏短视频平台Medal的衍生公司,General Intuition定位为公益型公司(Public Benefit Corporation),不直接销售世界模型,而是利用海量游戏数据训练具备时空推理能力的agent,服务于NPC、机器人等领域[5]。
其最大优势在于Medal独有的数据生态:年处理约20亿游戏视频片段,覆盖1000万MAU、数万款游戏,包含大量失败、Bug与物理碰撞等边缘场景,为训练AI物理鲁棒性提供关键支撑[5]。
公司认为:视频游戏是训练AGI的最佳合成数据源——天然具备“状态–动作–奖励”闭环,而YouTube等被动视频缺乏动作标签,无法支撑agent训练[5]。
技术架构:像素到动作的端到端学习
模型训练聚焦视觉输入到动作输出的映射:agent仅“看”屏幕像素做决策,不访问游戏底层API,具备强迁移能力——《使命召唤》中习得的避障策略理论上可迁至无人机或机器狗[5]。
其基础模型旨在赋予agent“通用直觉”(General Intuition),即理解物体在时空中的运动规律、预判动作后果,并在未知环境中完成路径规划而无需高精地图[5]。
团队与融资
2024年10月完成1.34亿美元种子轮融资(Khosla Ventures与General Catalyst领投),金额远超常规种子轮,印证资本对其数据价值与技术路线的高度认可[5]。
创始人Pim de Witte同为Medal创始人,确保数据生态无缝接入;团队汇聚DeepMind、Epic Games及DIAMOND、IRIS等世界模型论文作者[5]。
3. Decart:首个可交互“开放世界”AI引擎
Decart是以色列团队创立的AI初创公司,2024年10月获红杉领投2100万美元种子轮,同年12月再获Benchmark领投3200万美元A轮,投后估值超5亿美元[5]。
创始人Dean Leitersdorf年仅26岁,毕业于以色列理工学院;联合创始人Moshe Shalev曾于以军8200部队构建AI情报系统[5]。
公司此前已通过GPU训练推理优化软件实现盈利,为AI引擎研发奠定现金流基础[5]。
其核心产品Oasis是首个可交互“开放世界”AI模型,本质为AI驱动的沙盒游戏引擎:以Minecraft视频为训练数据,采用Transformer+Diffusion混合架构,自回归逐帧生成画面[5]。
Oasis支持键盘/鼠标实时输入,每帧生成间隔约40毫秒(≈25FPS),同步模拟基本物理碰撞与游戏规则,实现纯AI端到端闭环[5]。
为支撑高强度实时生成,Decart与硬件初创公司Etched合作,后者即将推出的“SoHu”AI芯片有望将Oasis提升至4K分辨率并支持10倍用户量[5]。
当前局限在于画面模糊、分辨率低及长期布局一致性不足(如转身回头地形变更),团队正通过滑动窗口与显式内存方案攻关时空一致性[5]。
4. Odyssey:高保真3D资产生成的工业级代表
Odyssey聚焦极致真实感(Photorealism)与可编辑性(Editability),目标是为电影、3A游戏与虚拟制片提供工业级世界模型资产[5]。
其Explorer模型可将单张图像转化为高保真3D场景,且输出为可导出、可编辑的3D资产,非封闭视频流[5]。
高质量数据驱动的3D资产
Odyssey自研重达25磅的专业采集背包,集成6个高分辨率摄像头、2个LiDAR与IMU,可采集13.5K分辨率视觉数据与同步深度信息,构建高质量Ground Truth数据集,形成不可复制的硬件护城河[5]。
3D高斯泼溅(3DGS)技术
核心算法采用3D Gaussian Splatting,以数百万个带颜色、透明度与方向的“高斯球”离散表示场景[5]。
相比NeRF隐式表达,3DGS优势在于渲染速度快、支持实时交互;更重要的是,艺术家可在Unreal Engine或Blender中直接移动、删除或修改单个高斯球,无缝接入好莱坞VFX工作流[5]。
团队与融资
创始人Oliver Cameron与Jeff Hawke均来自Voyage、Cruise、Wayve等自动驾驶公司,将严苛数据采集方法论引入创意产业;董事会成员包括皮克斯联合创始人、图灵奖得主Ed Catmull,体现其冲击电影工业的决心[5]。
2024年12月完成1800万美元A轮融资(EQT Ventures领投,GV与Air Street Capital跟投)[5]。

