大数跨境

世界模型之外,还有“外部世界”|上篇

世界模型之外,还有“外部世界”|上篇 DataMesh
2025-11-19
1
导读:具身智能时代,数字孪生为什么突然变得重要?

AI 在语言理解和内容生成上的表现已然令人惊叹:会聊天、会吟诗作画,甚至能一本正经地和我们讨论哲学问题。

你也一定见过那些会跳舞、会后空翻的机器人,但大多数时候,它们靠的不是自主智能,而是预先设定好的动作流程与远程操控。

一旦走进真实的物理世界,情况就没那么理想了:光线稍微变化、箱子歪了一点,机器人就可能认不出来;通道窄一点,它就停住不敢走。


让机器不仅“会说”,还“会做”——这是具身智能(Embodied AI)真正走进工业现场的关键。

也正因为如此,我们决定全新推出《走向具身智能的世界》专题系列,希望与大家一起探索具身智能的基础、挑战与未来。


这两年,人工智能圈里有一个词出现得越来越频繁:世界模型(World Models)


具身智能要求“行动能力”而不是“回答能力”,AI 正从语言理解走向对现实世界的结构、动态和因果关系的理解。而当技术从实验室迈向实际应用,问题也随之变得更加复杂。


本文上篇将从世界模型的起源、转变与最新趋势谈起,回答一个关键问题:为什么智能体需要一个“可计算的外部现实”?



01

从模式匹配到世界模型


从李飞飞到一批做机器人和具身智能的研究者,大家在不同场合反复强调:如果智能体想真正“理解”世界,而不只是对输入做模式匹配,就必须在内部形成某种关于世界的模型——

  • 能记住环境结构

    (东西在哪里?它们是什么?)

  • 能预测自己行动后的后果

    (如果我向前一步,会不会撞?)

  • 能在脑子里“预演”可能的未来

    (先想一下,再决定怎么做)


最近的综述甚至直接把世界模型定义为一种“内置模拟器”,专门用来在智能体体内重建环境动力学,为感知、预测和决策服务。


如果只看学术论文和大会演讲,这一切似乎很自然:先用大量感知数据训练一个内部世界,再基于这个世界做规划和动作选择,最后再把策略拿到现实世界中执行。


但一旦视角从论文转向仓库、工厂、医院和数据中心,你会发现一个更扎实但也更尴尬的事实:管内部世界模型多聪明,机器人在很多场景里就是表现得不稳定——不是抓不住箱子,就是找不到门把手,或者在机柜之间犹豫半天不敢动。


这里的问题其实很直接:今天大多数世界模型,学到的并不是这些行业里的“真实世界”。



02

实验室里的世界 vs 机器人真正面对的世界


世界模型这个词在学术上不是新发明。早在 2018 年,David Ha 和 Jürgen Schmidhuber 就提出用生成式神经网络压缩强化学习环境,用这种“世界模型”来代替原始环境,让策略在模型生成的“梦境”中学习,再把策略迁回真实环境。


之后,无论是围棋和电子游戏中的模型推理,还是近期面向具身智能的一系列工作,基本都延续了这种思路:世界模型是一个在智能体内部运行的环境近似器,用来减少真实交互的成本,提高规划能力。


但这些工作的绝大部分实验环境,要么是经典的游戏场景,要么是高度理想化的模拟环境。它们很适合作为算法发展的试验田,却很难覆盖真实工业场景的复杂度。


现实世界不会主动配合研究者:货架并不完美对齐,托盘会轻微变形,机柜型号每隔几年就换一轮,医院走廊的拥挤程度取决于星期几、几点钟,阀门的阻尼会随使用年限慢慢变化。这些差异在论文里往往只有一句“domain gap”,在工程里则直接决定了机器人是“能用”还是“不能用”。


可以说,学术意义上的世界模型,更多在回答“怎样在内部表示和预测世界”这个问题,而机器人在现场遇到的最大障碍,却是“这个世界本身从哪儿来,能不能被系统化地提供给模型去学习”



03

从“脑内世界”到“可交互的外部世界”


李飞飞谈世界模型时,实际上指向了两种“世界”。


她在最近几次公开对话和访谈中,一方面强调语言模型的局限:只在文本空间里做预测,不足以捕捉三维世界的因果结构;另一方面又提出“空间智能”和“世界生成”可能是下一阶段人工智能的核心方向,要能处理三维空间、物体关系和可交互的环境。


比较有意思的是,她创立的 World Labs 做的第一款产品叫 Marble,对外宣传的定位就是“通用世界模型”,但呈现出来的形态并不是一个抽象的内部网络,而是一个可以从文本、图片、视频甚至粗糙三维布局生成完整三维场景的系统,生成的世界可以导出到现有的三维引擎中使用。


这有一点暗示味道:

  • 学术上说的世界模型,更多是心智结构

  • 产业实践中“拿来用”的世界模型,往往要长成某种可交互的外部世界


同样的趋势在其他公司身上也能看到。DeepMind 最近公布的 Genie 3 可以从简单文本生成可交互的虚拟仓库、滑雪坡道等场景,供智能体在里面训练。英伟达则在 Isaac 机器人平台中引入了 Cosmos 一类模型,试图利用大量真实视频学习与人类活动相关的空间模式,再用来辅助机器人和自动驾驶系统理解周围环境。


这些工作有一个共同点:它们不再满足于“在脑内学一个世界”,而是试图学一个能供其他系统使用的“外部世界”,哪怕这个世界本身也是通过神经网络生成的。


世界模型的发展正在从“内部模拟”走向“生成可交互的外部世界”。而工业界,其实已经在悄悄搭建另一种真正能够让具身智能落地的“世界模型”——数字孪生


在下篇中,我们将进一步探讨:
为什么数字孪生正在成为具身智能时代真正的世界基础设施?

欢迎关注。



公众号|DataMesh

微博|DataMesh商询科技

长按扫码关注我们


点“阅读原文”了解更多

【声明】内容源于网络
0
0
DataMesh
Digital Twin +XR + AI 构建工业元宇宙,赋能一线工作者。
内容 225
粉丝 0
DataMesh Digital Twin +XR + AI 构建工业元宇宙,赋能一线工作者。
总阅读665
粉丝0
内容225