世界模型之外，还有“外部世界”

首页

世界模型之外，还有“外部世界”｜上篇

DataMesh

2025-11-19

导读：具身智能时代，数字孪生为什么突然变得重要？

AI 在语言理解和内容生成上的表现已然令人惊叹：会聊天、会吟诗作画，甚至能一本正经地和我们讨论哲学问题。

你也一定见过那些会跳舞、会后空翻的机器人，但大多数时候，它们靠的不是自主智能，而是预先设定好的动作流程与远程操控。

一旦走进真实的物理世界，情况就没那么理想了：光线稍微变化、箱子歪了一点，机器人就可能认不出来；通道窄一点，它就停住不敢走。

让机器不仅“会说”，还“会做”——这是具身智能（Embodied AI）真正走进工业现场的关键。

也正因为如此，我们决定全新推出《走向具身智能的世界》专题系列，希望与大家一起探索具身智能的基础、挑战与未来。

这两年，人工智能圈里有一个词出现得越来越频繁：世界模型（World Models）。

具身智能要求“行动能力”而不是“回答能力”，AI 正从语言理解走向对现实世界的结构、动态和因果关系的理解。而当技术从实验室迈向实际应用，问题也随之变得更加复杂。

本文上篇将从世界模型的起源、转变与最新趋势谈起，回答一个关键问题：为什么智能体需要一个“可计算的外部现实”？

从模式匹配到世界模型

从李飞飞到一批做机器人和具身智能的研究者，大家在不同场合反复强调：如果智能体想真正“理解”世界，而不只是对输入做模式匹配，就必须在内部形成某种关于世界的模型——

能记住环境结构
（东西在哪里？它们是什么？）
能预测自己行动后的后果
（如果我向前一步，会不会撞？）
能在脑子里“预演”可能的未来
（先想一下，再决定怎么做）

最近的综述甚至直接把世界模型定义为一种“内置模拟器”，专门用来在智能体体内重建环境动力学，为感知、预测和决策服务。

如果只看学术论文和大会演讲，这一切似乎很自然：先用大量感知数据训练一个内部世界，再基于这个世界做规划和动作选择，最后再把策略拿到现实世界中执行。

但一旦视角从论文转向仓库、工厂、医院和数据中心，你会发现一个更扎实但也更尴尬的事实：不管内部世界模型多聪明，机器人在很多场景里就是表现得不稳定——不是抓不住箱子，就是找不到门把手，或者在机柜之间犹豫半天不敢动。

这里的问题其实很直接：今天大多数世界模型，学到的并不是这些行业里的“真实世界”。

实验室里的世界 vs 机器人真正面对的世界

世界模型这个词在学术上不是新发明。早在 2018 年，David Ha 和 Jürgen Schmidhuber 就提出用生成式神经网络压缩强化学习环境，用这种“世界模型”来代替原始环境，让策略在模型生成的“梦境”中学习，再把策略迁回真实环境。

之后，无论是围棋和电子游戏中的模型推理，还是近期面向具身智能的一系列工作，基本都延续了这种思路：世界模型是一个在智能体内部运行的环境近似器，用来减少真实交互的成本，提高规划能力。

但这些工作的绝大部分实验环境，要么是经典的游戏场景，要么是高度理想化的模拟环境。它们很适合作为算法发展的试验田，却很难覆盖真实工业场景的复杂度。

现实世界不会主动配合研究者：货架并不完美对齐，托盘会轻微变形，机柜型号每隔几年就换一轮，医院走廊的拥挤程度取决于星期几、几点钟，阀门的阻尼会随使用年限慢慢变化。这些差异在论文里往往只有一句“domain gap”，在工程里则直接决定了机器人是“能用”还是“不能用”。

可以说，学术意义上的世界模型，更多在回答“怎样在内部表示和预测世界”这个问题，而机器人在现场遇到的最大障碍，却是“这个世界本身从哪儿来，能不能被系统化地提供给模型去学习”。

从“脑内世界”到“可交互的外部世界”

李飞飞谈世界模型时，实际上指向了两种“世界”。

她在最近几次公开对话和访谈中，一方面强调语言模型的局限：只在文本空间里做预测，不足以捕捉三维世界的因果结构；另一方面又提出“空间智能”和“世界生成”可能是下一阶段人工智能的核心方向，要能处理三维空间、物体关系和可交互的环境。

比较有意思的是，她创立的 World Labs 做的第一款产品叫 Marble，对外宣传的定位就是“通用世界模型”，但呈现出来的形态并不是一个抽象的内部网络，而是一个可以从文本、图片、视频甚至粗糙三维布局生成完整三维场景的系统，生成的世界可以导出到现有的三维引擎中使用。

这有一点暗示味道：

学术上说的世界模型，更多是心智结构；
产业实践中“拿来用”的世界模型，往往要长成某种可交互的外部世界。

同样的趋势在其他公司身上也能看到。DeepMind 最近公布的 Genie 3 可以从简单文本生成可交互的虚拟仓库、滑雪坡道等场景，供智能体在里面训练。英伟达则在 Isaac 机器人平台中引入了 Cosmos 一类模型，试图利用大量真实视频学习与人类活动相关的空间模式，再用来辅助机器人和自动驾驶系统理解周围环境。

这些工作有一个共同点：它们不再满足于“在脑内学一个世界”，而是试图学一个能供其他系统使用的“外部世界”，哪怕这个世界本身也是通过神经网络生成的。

世界模型的发展正在从“内部模拟”走向“生成可交互的外部世界”。而工业界，其实已经在悄悄搭建另一种真正能够让具身智能落地的“世界模型”——数字孪生。

在下篇中，我们将进一步探讨：
为什么数字孪生正在成为具身智能时代真正的世界基础设施？

欢迎关注。

公众号|DataMesh

微博｜DataMesh商询科技

长按扫码关注我们