在上篇中,我们从学术到产业,回顾了“世界模型”为什么会成为具身智能时代的核心概念:
它让智能体能够在内部预测、推演、规划——拥有一个“脑中的世界”。但我们也看到一个现实:再聪明的内部世界,也难以应对真实工业现场的复杂性。
因此,在本篇(下篇)中,我们将把目光从“内部世界”转向“外部世界”:
数字孪生为何正在成为具身智能落地的基础设施?
以及——当世界模型遇到外部世界,具身智能的未来会走向哪里?
01
在机器人研究者还在讨论世界模型该不该显式建模、是不是要可微的时候,工业界其实已经在悄悄搭建另一种“世界模型”,只是名字叫得不一样:数字孪生。
在过去十年,制造、物流、能源、建筑、交通等行业大量投资建设工厂、仓库、医院、机场、数据中心等物理系统的数字孪生,用来做设备监控、工艺优化和运维管理。这些系统里包含了精准的几何模型、物理属性、工艺流程、控制逻辑,甚至还记录了长期的运行数据。
面向具身智能的最新综述已经开始把数字孪生视作一种“外部世界模拟器”:在高保真虚拟环境中训练强化学习策略,再把策略迁移到真实机器人上,以此缩小所谓的“仿真到现实”间隙。
用世界模型的视角看,数字孪生其实扮演的是“外部世界模型”的角色。它并不替代内部的神经网络模型,但它提供了一个足够结构化、可控制、可重置的世界,让内部模型有地方学习动作、检验假设、反复出错。
越来越多关于具身智能的综述也开始提出类似观点:世界模型不仅可以是纯神经网络形式的内部模拟器,也可以是由物理引擎、渲染引擎和实时数据驱动的高保真虚拟环境,甚至两者可以相互逼近、逐渐融合。
如果不做概念上的偏好,你可以把两者简单理解为:
一个是“脑内的世界”,一个是“可计算的外部现实”。
02
对于一个真正要在现实中干活的机器人来说,这两种世界模型缺一不可。
内部世界模型决定了它能不能理解“如果我这么做,下一步会发生什么”,能不能在不充分的信息下做合理预测,能不能在短时间内规划一条动作序列;
外部世界模型决定了它有没有足够丰富、足够真实的经验来学会这些东西,决定了它在遇到新场景时,是否还有可用的“相似记忆”。
近年来关于世界模型的综述越来越强调“内部模拟器”的作用,但同一时期,数字孪生与具身智能结合的论文也在增加,很多工作直接把高保真数字环境视作训练深度强化学习策略的主战场。
在机器人领域的新研讨会中,甚至已经出现了“从物理仿真和数字孪生,到完全学习的神经世界模型”的连续谱讨论,试图把这条链条看成一个渐进的技术空间,而不是彼此排斥的路线图。
如果把视角从方法转向系统,很容易看出两者如何衔接成一个闭环:
工业现场的数据首先被结构化成数字孪生世界;
智能体在这个世界里不断尝试动作、收集结果;
基于这些经验,训练出兼具感知和预测能力的内部世界模型;
策略在内部世界模型和外部数字世界之间反复优化,最后再部署回真实机器人;
执行的成功与失败又重新变成下一轮训练的数据。
从这个角度看,真正决定具身智能落地难度的,不是单一方法的优劣,而是这个“外部世界 ↔ 内部世界 ↔ 真实世界”的闭环能不能闭得上。
03
站在投资人和工程决策者的角度,这条链路也给出一个相对清晰的结构:
内部世界模型更偏算法与算力,是高度可迁移的通用技术资产;
外部世界模型则高度依赖数据和行业场景,是典型的重资产型基础设施。
前者可以通过模型迭代和硬件升级持续升级,后者需要长期在工厂、仓库、医院、基础设施现场“蹲点”,才能把那些零散的 CAD 图纸、工艺文件、PLC 程序和运维记录,变成机器可以直接使用的数字世界。
这意味着未来具身智能生态很可能会呈现一种分层结构:
少数头部机构负责训练和演化通用世界模型;
大量行业玩家和平台负责建设和运营各种数字孪生世界;
机器人和设备厂商则站在这一切的接口处,把内部认知和外部现实通过具体硬件连接起来。
对于任何一个认真对待具身智能落地的人来说,真正需要回答的问题已经不是“要不要做世界模型”,而是“我们站在这条链路的哪一层、拥有什么样的世界、能为谁提供什么样的世界经验”。
从这一点上讲,现在围绕世界模型的讨论,反而有点“只谈大脑,不谈世界”的倾向。李飞飞和很多具身智能研究者其实已经在提醒大家:空间、物体、因果、可行动性这些东西,本身就带有强烈的物理和场景约束。如果没有一个足够丰富、足够真实、足够可计算的外部世界,世界模型再优雅,也只是在一个过于干净的宇宙里变聪明。
而数字孪生,正在悄悄把那个“脏而复杂的世界”搬上台面。真正有意思的变化,可能会出现在两者开始真正耦合之后。
公众号|DataMesh
微博|DataMesh商询科技
长按扫码关注我们
点“阅读原文”了解更多

