编译:Haozhen、Gemini
当前,大语言模型(LLM)在语言理解与生成方面展现出强大能力,但仅依赖语言难以实现真正智能。人类认知不仅依赖文字,更依赖视觉、空间感知和物理交互。语言是对三维世界的“有损压缩”,而真正的智能源于与环境的持续互动与空间推理。
因此,构建具备空间理解与操作能力的空间智能(Spatial Intelligence)和世界模型(World Models),成为继 LLM 后的关键方向。2024年,李飞飞与 Justin Johnson 创立 World Labs,并于2025年11月推出 Marble——全球首个高保真3D世界生成模型,旨在突破AI“只懂文本”的局限,赋予其在三维环境中定位、推理、模拟与执行任务的能力,推动AI从描述走向交互、从静态认知迈向动态智能。
本文基于对两位创始人的访谈,探讨为何空间智能是通往下一代AI的核心路径,以及世界模型如何成为这一变革的基础设施。
01 为什么我们需要空间智能?
空间智能的定义
李飞飞将空间智能定义为:在三维空间中进行推理、理解、移动与交互的深层能力,核心在于“推理”。她引用心理学家 Howard Gardner 的多元智能理论指出,空间智能与语言智能并非对立,而是互补。LLM 解决了符号逻辑处理问题,而空间智能则补足视觉、空间与物理交互能力,是实现通用人工智能(AGI)不可或缺的一环。
人类进化的启示
回溯人类智能演化历程可见,自然界花费约5.4亿年优化生物的视觉感知与空间行动能力,而语言历史仅约50万年。尽管人类“看见”看似毫不费力,实则是亿万年进化的结果;相反,语言需长期学习,主观上显得更难。
这种认知偏差导致人们误以为掌握语言即代表高级智能。实际上,让AI理解像素、三维结构与物理规律的难度不亚于语言处理。忽视5.4亿年的进化积淀,仅靠语言构建AGI是不完整的。
语言是对3D世界的“有损压缩”
Justin Johnson 指出,像素和视觉信号更接近“无损”表征。现实世界中,人眼接收的是“生物像素”,而语言描述则是高度抽象的信息压缩过程,丢失了字体、布局、空间关系等关键物理信息。
以“拿起杯子”为例,语言可轻松描述动作,但在真实世界中涉及复杂的空间计算:识别物体位置、手部姿态匹配、接触点判断等,完全依赖实时三维感知。语言叙述本质是一个“带宽极低且有损的通道”,无法承载真实的物理互动。
DNA双螺旋发现中的空间思维
李飞飞以DNA双螺旋结构的发现为例,说明空间智能在科学突破中的核心作用。Crick 与 Watson 并非仅靠线性逻辑推导,而是通过三维空间想象与物理模型搭建,反复拆解重组分子结构,结合X射线数据完成空间匹配,最终“猜测”出双螺旋构型。
这一过程体现了高阶空间推理能力——在未见实体的情况下构建几何结构并验证其合理性。这证明空间智能不仅是生存基础,更是顶级科学创造的关键工具。
基于上述理念,World Labs 致力于构建大型世界模型(Large World Models, LWM),使AI不仅能识图读文,更能真正“理解”空间与物理规则,生成可交互的3D世界,服务于设计、游戏、AR/VR及机器人等领域。
Justin Johnson 提出:“将AI带出数据中心,带入真实世界。” 当前正处于构建世界模型的关键节点——模型不仅要预测下一个Token,更要预测三维世界的物理演变;不仅要生成文本,更要生成具有物理属性的3D场景。这将成为AI理解物理法则、实现具身操作的新一代引擎,补全AGI版图中最古老也最复杂的拼图。
02 Marbl 是什么?
Marbl 是 World Labs 推出的全球首个高保真、面向公众开放的3D世界生成模型。团队在设计时兼顾双重目标:
- 作为推动空间智能发展的世界模型,具备多模态输入理解、反事实模拟与时间演化能力;
- 避免沦为纯科研项目,致力于为游戏、视觉特效(VFX)、影视制作等行业提供实际价值。
其核心优势体现在以下两方面:
多模态输入(Multimodal Input)
Marbl 支持多种输入形式:文本描述、单张图像或图像组。例如,用户上传两张厨房照片,模型即可重构出该空间的3D模型,极大提升工作流灵活性。
交互式编辑(Interactive Editing)
这是 Marbl 区别于传统生成式AI的关键。用户可像与设计师沟通一样,直接下达修改指令,如“把水瓶改成蓝色”、“移走桌子”或“调整麦克风位置”。模型能理解意图并重新生成符合新约束的完整3D场景,形成“生成-反馈-修改”的闭环体验。
值得注意的是,3D世界生成模型与视频生成模型存在本质差异。后者输出的是2D像素帧序列,缺乏稳定三维结构,导致运镜控制模糊(如无法精确指定“向北平移63度”)。而 Marbl 输出的是完整立体场景,内含结构与坐标信息,允许用户自由设定摄像机位置、朝向乃至复杂运镜轨迹,首次在生成式AI中实现传统CGI软件级别的精确控制。
03 Marbl 的技术路线
World Labs 并未复用现有视频生成技术栈,而是聚焦3D表示与神经网络架构底层创新,在生成质量、渲染效率与物理真实性之间寻求平衡。
为何选择 Gaussian Splats?
Marbl 采用 Gaussian Splats(高斯溅射)作为3D世界的基本单元。每个 Splat 是一个带有位置、方向、颜色与透明度的3D高斯体,形似半透明粒子云。大量Splats叠加可高质量重建真实场景。
相比传统网格(Mesh)或体素(Voxel),Gaussian Splats 更适合现代GPU光栅化管线,可在iPhone、VR头显等设备上实现30–60fps实时渲染,显著降低计算成本。
虽然当前使用Splats,但架构保持开放。未来可能演进为3D区域Token或基于RTFM(Real-Time Frame Model)的逐帧生成方式。
视觉真实 ≠ 物理真实
当前世界模型面临的核心挑战是:生成“看起来真实”的场景易,生成“符合物理规律”的世界难。深度学习本质是模式匹配,模型可能生成精美拱门,却不理解其承重结构。
对此,World Labs 探索三种路径:
- 蒸馏物理知识:利用经典物理引擎生成海量模拟数据,训练模型隐式学习物理规律;
- 赋予Splats物理属性:为每个粒子附加质量、弹性等参数,通过“虚拟弹簧”连接相邻粒子,模拟真实碰撞与变形;
- 生成式模拟:不进行传统物理计算,而是直接“重新生成”操作后的场景状态,具备最强通用性。
Transformer 是集合模型,而非序列模型
Justin Johnson 强调,Transformer 本质上是集合(Set)模型,因其注意力机制具有置换等变性——输入顺序改变不影响内部处理逻辑。唯一使其变为“序列模型”的是人为添加的位置编码。
这一特性使其天然适合处理3D空间数据。3D世界本身是由物体、粒子组成的无序集合,无需强制转化为线性结构。因此,Transformer 成为构建3D世界模型的理想架构,无需另起炉灶,只需正确利用其处理集合数据的能力。
04 Marbl 的使用场景
Marbl 被定位为一项赋能各行业的横向技术(Horizontal Technology),潜力远超单一领域。
创意与影视
在影视、游戏与VFX领域,Marbl 解决了生成内容缺乏精确控制的痛点。支持精确相机放置与运镜规划,可用于虚拟制片背景生成,大幅降低特效制作门槛与成本。
室内设计
用户拍摄自家厨房照片上传后,Marbl 可重构3D模型,并通过交互式编辑尝试台面材质、地板样式、橱柜颜色等方案。该功能虽非专门开发,但因具备通用空间智能而自然衍生,已有用户基于API构建垂直应用。
机器人与具身智能
机器人训练面临“数据饥渴”问题:真实世界数据稀缺且昂贵,互联网视频缺乏交互性。Marbl 可作为高保真模拟器,生成多样化厨房、光照与障碍物场景,供具身智能体在零成本虚拟环境中进行成千上万次试错训练。
这种合成模拟世界(Synthetic Simulated Worlds)能力,极大降低训练环境构建成本。尽管目前落地于创意产业,但团队坚信,随着技术成熟,Marbl 将成为机器人爆发前夜最重要的基础设施之一。
05 在算力被巨头垄断的时代,学术界还能做什么?
随着AI对算力需求激增,训练动辄调用数万张GPU,学术界已难以复制工业级SOTA模型。Justin Johnson 认为,学术界不应盲目追赶参数规模,而应发挥独特优势,成为“疯狂想法”(Wacky Ideas)的孵化器。
工业界的任务是验证有效路径并通过大规模预训练产品化;学术界则应专注短期不可行但具长远颠覆性的“蓝天研究”(Blue Sky Problems),如探索大模型理论基础或跨学科融合。
他提出一个前瞻性议题:打破“硬件彩票”(Hardware Lottery)。当前AI架构(如Transformer)依赖矩阵乘法(MatMul),因其适配GPU。但这可能是路径依赖。随着每瓦性能提升放缓,未来需探索更适合分布式集群的新计算原语。
学术界应承担起探索未来20年底层架构的使命——寻找不依赖MatMul的全新神经网络范式,这正是其不可替代的价值所在。
参考来源:
After LLMs: Spatial Intelligence and World Models — Fei-Fei Li & Justin Johnson, World Labs|https://www.youtube.com/watch?v=60iW8FZ7MJU
排版:傅一诺

