这两年,人工智能圈里有一个词出现得越来越频繁:世界模型(World Models)。
具身智能要求“行动能力”而不是“回答能力”,AI 正从语言理解走向对现实世界的结构、动态和因果关系的理解。而当技术从实验室迈向实际应用,问题也随之变得更加复杂。
本文上篇将从世界模型的起源、转变与最新趋势谈起,回答一个关键问题:为什么智能体需要一个“可计算的外部现实”?
01
从李飞飞到一批做机器人和具身智能的研究者,大家在不同场合反复强调:如果智能体想真正“理解”世界,而不只是对输入做模式匹配,就必须在内部形成某种关于世界的模型——
能记住环境结构
(东西在哪里?它们是什么?)
能预测自己行动后的后果
(如果我向前一步,会不会撞?)
能在脑子里“预演”可能的未来
(先想一下,再决定怎么做)
最近的综述甚至直接把世界模型定义为一种“内置模拟器”,专门用来在智能体体内重建环境动力学,为感知、预测和决策服务。
如果只看学术论文和大会演讲,这一切似乎很自然:先用大量感知数据训练一个内部世界,再基于这个世界做规划和动作选择,最后再把策略拿到现实世界中执行。
但一旦视角从论文转向仓库、工厂、医院和数据中心,你会发现一个更扎实但也更尴尬的事实:不管内部世界模型多聪明,机器人在很多场景里就是表现得不稳定——不是抓不住箱子,就是找不到门把手,或者在机柜之间犹豫半天不敢动。
这里的问题其实很直接:今天大多数世界模型,学到的并不是这些行业里的“真实世界”。
02
世界模型这个词在学术上不是新发明。早在 2018 年,David Ha 和 Jürgen Schmidhuber 就提出用生成式神经网络压缩强化学习环境,用这种“世界模型”来代替原始环境,让策略在模型生成的“梦境”中学习,再把策略迁回真实环境。
之后,无论是围棋和电子游戏中的模型推理,还是近期面向具身智能的一系列工作,基本都延续了这种思路:世界模型是一个在智能体内部运行的环境近似器,用来减少真实交互的成本,提高规划能力。
但这些工作的绝大部分实验环境,要么是经典的游戏场景,要么是高度理想化的模拟环境。它们很适合作为算法发展的试验田,却很难覆盖真实工业场景的复杂度。
现实世界不会主动配合研究者:货架并不完美对齐,托盘会轻微变形,机柜型号每隔几年就换一轮,医院走廊的拥挤程度取决于星期几、几点钟,阀门的阻尼会随使用年限慢慢变化。这些差异在论文里往往只有一句“domain gap”,在工程里则直接决定了机器人是“能用”还是“不能用”。
可以说,学术意义上的世界模型,更多在回答“怎样在内部表示和预测世界”这个问题,而机器人在现场遇到的最大障碍,却是“这个世界本身从哪儿来,能不能被系统化地提供给模型去学习”。
03
李飞飞谈世界模型时,实际上指向了两种“世界”。
她在最近几次公开对话和访谈中,一方面强调语言模型的局限:只在文本空间里做预测,不足以捕捉三维世界的因果结构;另一方面又提出“空间智能”和“世界生成”可能是下一阶段人工智能的核心方向,要能处理三维空间、物体关系和可交互的环境。
比较有意思的是,她创立的 World Labs 做的第一款产品叫 Marble,对外宣传的定位就是“通用世界模型”,但呈现出来的形态并不是一个抽象的内部网络,而是一个可以从文本、图片、视频甚至粗糙三维布局生成完整三维场景的系统,生成的世界可以导出到现有的三维引擎中使用。
这有一点暗示味道:
学术上说的世界模型,更多是心智结构;
产业实践中“拿来用”的世界模型,往往要长成某种可交互的外部世界。
同样的趋势在其他公司身上也能看到。DeepMind 最近公布的 Genie 3 可以从简单文本生成可交互的虚拟仓库、滑雪坡道等场景,供智能体在里面训练。英伟达则在 Isaac 机器人平台中引入了 Cosmos 一类模型,试图利用大量真实视频学习与人类活动相关的空间模式,再用来辅助机器人和自动驾驶系统理解周围环境。
这些工作有一个共同点:它们不再满足于“在脑内学一个世界”,而是试图学一个能供其他系统使用的“外部世界”,哪怕这个世界本身也是通过神经网络生成的。
世界模型的发展正在从“内部模拟”走向“生成可交互的外部世界”。而工业界,其实已经在悄悄搭建另一种真正能够让具身智能落地的“世界模型”——数字孪生。
在下篇中,我们将进一步探讨:
为什么数字孪生正在成为具身智能时代真正的世界基础设施?
欢迎关注。
公众号|DataMesh
微博|DataMesh商询科技
长按扫码关注我们
点“阅读原文”了解更多

