World Model 闭门会长文实录｜多重视角下的世界模型：定义边界、三条路线、Benchmark和数据飞轮｜Research Curation

Research AI+

2026-05-28

导读：Research AI+社区的小伙伴跟5Y社区的朋友们围绕世界模型 World Model 做了一场小范围闭门讨论。参与者本身来自非常不同的背景：具身智能和机器人操作，自动驾驶，视觉表征、三维生成、多

5月15日晚上，Research AI+社区的小伙伴跟5Y社区的朋友们围绕世界模型 World Model 做了一场小范围闭门讨论。

这场讨论最有意思的地方，并不只是大家谈到了哪些技术路线，而是参与者本身来自非常不同的背景：有人长期做具身智能和机器人操作，有人来自自动驾驶和硬科技工程现场，有人关注视觉表征、三维生成、多模态、Agent、AI Infra，也有人在做生成式世界模型评测和早期技术投资。

这使得讨论天然带有多重视角。很多时候，大家对 World Model 的判断并不是从同一个问题出发的：做机器人操作的人会关心 action 和真实世界反馈，做自动驾驶的人会关心长尾数据和部署，做评测的人会关心 benchmark 是否真的测到了物理一致性，做 Infra 和产业工程的人则会更敏感于系统、延迟和落地成本。

也正因为如此，我在整理这份实录时，专门保留了每位发言人的研究领域，并尽可能完整地复现讨论现场的结构、语气和观点流动。希望大家在阅读实录的时候，仍然能看到：一个观点并不是凭空出现的，它往往和发言人的研究方向、产业位置、问题意识和专业经历密切相关。

World Model 仍处在非常早期的讨论阶段，很多问题目前都没有标准答案。这里面的很多判断也未必有绝对对错，更多是不同路径、不同约束、不同应用场景之间的碰撞。

因此，这份实录更像是一组来自现场的分歧样本的整理和呈现。阅读时，大家可以带着发言人的 background 去看：谁在说，为什么他会这样说，以及这个判断背后隐含的是哪一种应用场景和技术路线。大家食用愉快。

特别说明：出于隐私和信息边界考虑，实录对部分内容做了删减和必要整理。感谢理解。

Highlight

Video generation 的成功，可能和 World Model 的进展不是一回事。如果做画面、不能处理 action、长程因果和决策，就不是可行动的世界模型。
真正有价值的世界模型，必须能回答：我做了这个 action 之后，世界会怎么变。

JEPA 可能是一场“所有人都觉得对，但没人真正做出来”的幻梦。

World Model 的路线之争，最后可能不是谁更聪明，而是谁压缩比的效率更高。

今天具身智能的 benchmark，可能还停留在“爱迪生试灯丝”阶段。
真正好的 World Model benchmark，可能应该像游戏，而不是像考试。
长时间 rollout 一旦成立，World Model 可能替代一部分真实环境 RL。

机器人里的 test-time scaling，可能不是“模型多想一会儿”，而是“世界给了它新的观测”。
World Model 的 GPT-3 时刻，不是某个 demo 更炫，而是机器人出现真正 few-shot。

具身智能真正的瓶颈，可能不是模型，而是数据飞轮还没出现。ego-view 数据 scaling 可能是少数看起来还能走通的路。

话题一：World Model 的定义边界

研究者|具身智能 + WAM

我自己是做机器人操作、做具身的。可能在做具身的人看来，world model 有一个比较狭义、原教旨主义的定义，也有一个更宽泛的定义。

区别在于，它是不是真的是 action-conditioned。宽泛一点的用法里，比如输入当前看到的图像或者状态，在预测 action 的同时，同时预测接下来一段时间的 video。它只是把预测 video 当作辅助 loss，或者一个 task，去增强模型本身对物理规律的理解和表征能力。它的输入并不是真正的 action-conditioned，不会输入类似 action 这样的东西。

另一种更原教旨主义的定义是 action-conditioned world model。它一定可以输入 action。比如对机器人来说，我接下来往左动、往上动、往下移，世界会怎么变化；对游戏来说，我有键盘 WASD 指令，世界会怎么变化。它需要有这种 action 的输入，才叫 action-conditioned world model。

我觉得大家对这个词混用还是挺多的。特别是在具身领域，很多人只是把预测 video prediction 这件事加到 action 学习里面，也把它当作 world model。我觉得这是一个不太好的用法。我还是比较认同更原教旨主义一点的定义：有 action-conditioned 的东西才叫 world model。

创业者|具身智能

我觉得每个人都有不同的想法，我自己觉得 world model 更多是一种方法的想象。每个人都在说不同的 world model，但与其在一开始就讨论到底什么是 world model，不如一起讨论一件事：大家希望用 world model 做到什么事情。

用目的倒过来定义模型、倒过来定义技术路线，可能更重要。后面的问题也会决定 benchmark，决定哪条路线到底最好。最终你总归要优化这个所谓的 world model。

以具身为主，我一直追求的 world model，包括以前用多个模型组合，试图拼凑出一个能够推理、决策、行动的 world model，本质上只想达到一件事情：我希望这个 world model 能够直接出决策，能够直接在现实世界中行动。

它和 VLA 的区别，是它在行动之前，比起直接行动，多了更多关于世界的想象，关于“我这么动之后，世界会发生什么变化”的 physical law，或者所谓的 multi-step reasoning ability。

所以我觉得目的可能比把模型或界定框住更重要。因为这个词今天太大了。字面上说，表达世界的模型也可以叫 world model，李飞飞老师做一个 3D 世界生成，当然也可以说是 world model。

投资人

我的理解和刚才相似。从纯粹数据意义上讲，world model 有 state，有 action 或者影响 state 的东西，然后下一阶段的 state 是什么。World Model 跟其他 model 本质上的不同，是它能对 state 本身有 prediction。

作为 state prediction 的一部分，你可以输出 policy，带来 action。但它能够输出比 VLA 或者其他模型更好的 policy，原因是它对 state 的 prediction 会更好。

State 本身变化，肯定有一个东西让它变化。比如 Sora，以前也有人把 Sora 当作 world model，它是不带 action，或者只是把状态往前推演。Action 的作用，可以理解为把这个推演状态收束到一个更小的流形上，让它只能在一个狭窄范围内推演。每一个 action 能让它收敛到更小的状态。

所以我觉得还是有 action、有 state。放到不同应用场景里，大家并不统一。我最早想到的其实是 AlphaGo 里面的 value network，本质上也是一种 world model，有 action 进来，对 world 产生 disturbance，然后 predict 下一步怎么样，再给它打分。

今天大家讲 world model，可能因为具身讲得最多。但放到生物环节，比如虚拟细胞，过去 90% 精力可能都放在怎么生成药上；但是怎么测试这个药，它对人体会产生什么样的影响，在单细胞上、器官上会产生什么，都是对应场景。它也会有自己的表征、action representation 的方式和结果。

自动驾驶视角也会有另一个问题。以前的 deterministic 仿真系统是不是 model？它不是生成式的、probability 的分布式状况。比如我们用一套系统写定了，那它也是对应世界的 prediction。游戏引擎本质上可能也是，只是泛化能力太有限，它能做的事情，是设计者要想到所有东西，才能设计出 prediction。

今天回过头看，我们希望 world model 真正 capture world，而不是停留在设计者自己脑中的思考边界。

研究者|生成式 WM 评测

我上周去听了一个 World Model 论坛，当时听到一句话，我觉得比较有道理：世界模型的本质，是对真实世界做 prediction 和做最优决策的整个思考链路。它可能是模型以后的一种底层能力。

我们现在可以端到端解释这件事。首先，世界知识，或者说 state，它的 thinking 是怎么被学习、表示和抽象出来；其次，模型如何基于这些先验，最终做出一个最优的 action。

所以无论是生物、化学、材料这些 ai for science 的 World Model，还是自动驾驶、具身操作的 world model，甚至是把整个宏观和微观宇宙的 world model 建模出来，最后这些系统都会变成一个端到端架构。它可能是大模型底层的一种能力。

创业者|具身智能

World Model 的元素界定其实只有一个公式：最经典的 predictor，预测状态 S 到 S‘ 在动作条件下的变化。

抽象来看，刚才大家讨论的东西：第一，什么是 state；第二，这样一个 predictor 怎么设计。我们可以人工手搓，像早期的仿真器，也可以用今天 learning-based 的方法去找 predictor。State 可以是生物自己的 state，也可以是机器人的 state，最后是 action。

Action-conditioned，在具身里面，狭义一点的时候，我们定义的是机器人具体的位姿，或者 pose，或者 full-body control 的动作。但在今天这个语境下，action 也可以是 latent action，可以是语言，也可以是任何一种模态。

这三个组合在一起，就是一个超级 general 的严肃界定。

工程师|AI Infra

我本身不是做 world model 的，但有很多做 world model、做自动驾驶相关的朋友，他们的看法跟刚才同学介绍的一样：world model 本身定义，是你对物理世界状态做预测，预测接下来会发生什么。

跟人类对比，人类本身自带一些预测未来会发生什么的能力。我们打羽毛球、网球，球过来，很快能估计需要移动到什么位置去打。大脑并不需要做数学物理计算。但现在让机器人做这种事情非常困难，比如让机器人打球，难度很高。

未来 world model 也许会在汽车或者赛车上体现，像人类有快慢思考两套系统一样，world model 作为一个系统集成进去，再和慢速的长程任务决策做融合。

另外，我观察到大家讨论 world model 时，输入模态很多是图像或者视频。但人类和物理世界互动，还有很多输入模态没有被捕捉。还是以打球为例，声音或者震动对于很多人来说是很有效的信息输入，还有触觉，也就是所谓手感。假如机器人想做一些具体操作，触觉反馈非常重要。我很好奇，当前世界模型的研究怎么处理这些问题。

创业者

人或者机器人做很多事时，肯定不止视觉。我心目中的 world model，可能代表一种 world intelligence。

这种 world intelligence 跟 language 的推理、下棋、搜索，是不一样的一种智能。人类有触觉、听觉、嗅觉、视觉，人类把这些东西都变成文字，所以看起来文字当然是一个很好的 state。但对机器人来说，文字并不是最好的 state。

在我心目中，最终极意义上的 world model，或者 world intelligence，肯定要包含这些五感。问题是，怎么更好地把它放到一种 representation space 里面。

话题二：三条 World Model 的主流路线

创业者

粗略来说，我把路线分为三种：Sora 或类 Sora 的生成模型路线，JEPA 路线，以及空间智能—— World Labs 这类 3D 路线。

第一种，以 Sora 或类 Sora 为代表。OpenAI 当时发布 Sora 的 technical report 标题就是 “Video generation models as world simulators”，所以它在讨论中也经常被称为 world simulator.

Sora 以及它背后代表的流派，其实有一个更早的副线，就是 Midjourney、Stable Diffusion 这些 product-level 的东西已经有了。在这个基础上，很自然会想到在 video 上做这件事。

但这些东西本质上做的事，更多聚焦在画质和美学。早期 Sora 以及早期 video generation model，其实跟生成一张图片差不多。因为它生成出来的东西，可能是一个人，有一些轻微动作，但缺乏长时间、长程逻辑。

最早期的一帮 generative model，更像是 image 的线性外推。它跟我们后来今天看到的 world model，在需求层面有很大区别。它们的需求是画质、text prompt following、美学，要生成得漂亮、赏心悦目。但今天 world model 更多看的是抽象和逻辑。

但从效果看，今天这样的 model 依旧有很大挑战。当尺度从秒级变成小时级：一个秒级 video 可能跟照片差不多，但一个小时级 video 可能才是真正 world model 希望具备的能力。从需求来说，今天其实还很弱。

所以 video generation 今天做得很成功，我们做短剧、电商广告的 video 也很成功，是因为我觉得它跟生成一张 image 的难度差不多。但 world model 有更多挑战。在 world model 这个 task 里，第一个流派今天还在迷雾探索的初期。

第二个是 JEPA。2019-2021年期间，如果你做自监督学习，CV 里面 Contrastive Learning 是绝对主导。2021 年开始，因为 BERT 在 NLP 里面已经成为主线，所以 2021-2022 年，CV 里很多人也在做 CV 里的 BERT，以何恺明的 MAE 为代表。

我对 JEPA 的理解是，它在某种程度上把 contrastive learning 和 mask model 这两条线索放到了一起。当然，后面有很多演化，也做了很多改进和删减。

我会把 JEPA 拆解为两层：一种方法论，和一种具体 method。作为具体 method，我把它理解成一种 contrastive learning 和 mask model 的某种融合。

它希望做一个更好的 representation，在这个 representation 里面摒弃掉一些无关紧要的噪音，或者对 world model 任务无关的东西。比如我要做 robot planning，想象未来会发生什么，很多东西可能无关，所以它做的是压缩和抽象。

从这一点上，我非常认可 JEPA 这个 high level 的方法论。从 LeCun 自己的表述来看，他们内部应该也在重新思考这个路线。AMI Labs 目前拿了10亿美金想要去做这个方向的 scaling，结果还需要时间验证。

第三个是空间智能， World Labs 为代表，他们从 3D 来做。三个流派里，我心目中的第三个流派更加 initial。

刚才大家也讨论到，world model 的 state 有很多定义：视频、音频、触觉；比如我们去滑翔伞，可能有很多视频和触觉；如果是细胞，可能有细胞里面很多 state。但如果要挑一个绝对意义上的核心，不管怎么定义，不管输入是什么，不管 action 在输入还是输出，它总有一个东西：时间 T。World model 总是在建模时间上的 transition。

所以我觉得第三个流派今天最早期，因为它还没有把时间讲出来。它今天暂时先做 3D，先把 XYZ 做了。也许未来做 XYZT。别的路线可能先做 XYT（视频），如果是 ego centric 或者 multi-view 带 depth，可能是 XYDT。还有路线可能先做 XYT 或 XYDT。但 World Labs 现在做的是 XYZ，所以未来必须思考 T 怎么引入。

工程师|自动驾驶

我比较关注 action。昨天复旦大学刚写了一篇关于 world action model 的综述，它把 world model 定义成比较狭义的前向仿真，world action model 才会有未来 action 和未来重建，或者一些隐状态的联合分布。

对于这三条技术路线，我实际工作中接触的是前两条，基本都用到过。因为我们要部署在真实机器人上，我们的机器人最大范围就是车，所以更关心它能不能在真机、实车上部署起来。

第一条路线里有几篇代表性工作：NVIDIA 的 DreamZero，以及3 月出现的两篇相关工作：星海图（Galaxea AI）与清华团队的 Fast-WAM，还有极佳视界（GigaAI）的 GigaWorld-Policy。这几篇工作的共同点是：训练时显式把未来预测加到 world action model 任务里去，进行 co-training。

DreamZero 的范式会说，训练和推理时，两个部分能互相拿到对方信息，逐步 rollout。但它效率比较低。所以 Fast-WAM 或者 GigaWorld，为了在 robotics 上比较高频地用起来，得到的结论可能是：训练阶段 co-training，inference 阶段把 video generation 部分 remove 掉。

在实际业务里，在一段式范式下，我们尝试后发现它 work。World action model 真正进入工业界视野时，我们可能会说，为了让 backbone 训得更好，我们接非常多显式任务。比如什么样的 backbone 表征能力比较强？可能是有比较好的感知、比较好的检测、框的检测等等。我们把这些任务加进去以后，发现会有比较好的效果。

第二个 JEPA，在我看来比较优美。如果能够把所有东西都拉到 latent space 进行 rollout，理论上它对长程任务有非常大潜力，相比一定要把 image 环境观测呈现出来的范式。但 JEPA 我也不确定工业界有没有真的做出比第一条路线更好的效果。就我的经验，目前有非常大难度。但从上限来说，如果能把所有表征都拉到隐空间做长程 rollout，上限可能会更高。

创业者|具身智能

我觉得 JEPA 可能是一场幻梦。所有人都认为正确，但没有一个人能做出来的巨大梦想。V-JEPA World Model 最新发布的代表性工作，最终也只做到 Push-T 这种用 MLP 就能跑通的小任务。

生成式模型显然在视频生成上取得了成功，但大家都知道 world model 不等于 video generation。问题还在 state 上，到底什么是 state。所以 Genie 做了这些架构，听起来都很 exciting，但最后你去问 Veo 3 的人怎么做出这么好的效果，他回答只有两个字：diffusion 加 scaling。

根据非公开渠道的消息：Google 他们自己多模态联合生成团队也发生了改变，Veo 3 可能已经并到 omni team 里面去。Omni team 也在试图把 AR 和 diffusion 混在一起。这些事情我觉得很难谈上 world model，它更像是 generation model。

我比较认可刚才同学 share 的观点：action 才是最重要的。你到底怎么在所谓 state 里面嵌入对 action 的表达？这个 state 到底想说出什么？

World model 有一个隐含前提：我不光是在做状态生成。生成再长的视频、再精美的画面，it doesn‘t mean anything。真正想要的是，当我预测世界会这样动态变化之后，下一步会发生什么。

比如我今天拿了这个杯子，把杯子推倒。我其实想预测的是，这个动作对世界带来的后续影响，甚至更长程的 multi-step reasoning。这个杯子倒了之后，会倒到我身上，我会跳起来会破防。所以从结果倒推，我不能做一个没素质、把杯子推倒的人。

我们希望 world model 里面有这样一个长线能力。从 long context 或者 multi-step reasoning ability 的角度来说，我个人认为，这几条技术路线本质上是一场效率的比较，不是谁好谁坏。

假设我们有无限大的模型、无限多的数据、无限多的卡，全地球的电能源都被 world model 运转，总能 scaling 出一个无敌的世界模型，甚至可以实现黑客帝国。但问题是，当我们没有这么多资源时，world model 的架构范式，本质上是一场效率竞争。

在机器人层面，机器人末端最多部署一个 7B 的 VLA，或者 world model 也只有这么大。你怎么把预测表征装在这个范畴之内？机器人要达到实时，延迟在 50ms 到 100ms 的工作区间，现在的模型能否做到？

这就是为什么机器人这边很多工作会生成视频，本质上是因为大家都知道 video generation 不是一个好的标准。JEPA 也一样是在做梦：希望有一个超级好的压缩器，把 world model compress to high dimension。

Summary 一下：这些技术路线最后在互相挑战、互相比较，最终符合 Bitter Lesson 的 scaling 终局，可能只有一个问题：谁的压缩比例更高，谁就会在效率和资源竞争中占优势。

我讨论效率时，有一个前置假设：我希望 world model 是一个 super intelligent model，是新的智能范式。但从应用场景看，它们必然会逐渐划分。比如 3D 路线可能先落地游戏引擎；生成式模型可能更适合生成式内容创造，但对物理世界的表达不一定那么重要；JEPA 可能更像机器人模型，越做越小，可能会有一个 20B encoder 加一个 5B predictor 的特殊混合状态。

它们会分化，因为黑客帝国不可实现。只要我们能做出那种 level 的算法，就会发现我们永远无法证明现在的世界是不是真实的。所以必须接受 world model 的 big dream 是一个幻梦。在这个前提下，我们只能去做破解。

话题三：评估 World Model 为什么比评估 LLM 难得多

研究者|Embodied AI + Video Generation

还有一个问题：什么时候我们会觉得 world action model 已经做完了，已经有一个非常 clear 的定义？这比较难说，可能会引出 benchmark 问题。

真机上我不知道大家有没有关注，灵波那边应该做过一个叫 GM100 的 benchmark。那个 benchmark 的任务其实非常反人类，很多是为了测试极端安全能力设计出来的。

比如它会让机器人拿单臂去踢足球。但现实生活中，我们不会拿手指专门去踢足球，去测验操作能力。如果测验婴儿的运动能力，可能更多还是常见操作。

我觉得，也许当所有机器人不经过特别训练，进入千家万户帮大家做家务；当你觉得一个机器人出现在家里，像扫地机器人一样存在，它在那边做饭，你不觉得惊讶的时候，那个时候可能到了。

Benchmark 应该偏向人类常见操作，而不是为了为难机器人定义一些 task，也不是为了拍出好看的 demo，故意做一些简单的 task。

创业者

我把身边 100 个常用 task 都做了一个 benchmark。

如果直接列 100 个 task，看最后成功率，可能有些 task 是 long horizon 的，这使得它也有一定的区分度。但也可能在很长一段时间里，大家 accuracy 都是 0 或者 5%。有没有更好的能力或 feature 层面的拆解？

今天出现的一些 world model benchmark，会设计一些 axis，比如 physical coherence 之类。我想知道，是不是列一些能力维度层面的 benchmark，会实现更好的？

研究者|Embodied AI + Video Generation

我比较赞同这个点。现在把机器人放到大型场景里，给一个非常宏观的指令，而不是评测一个 subtask，大家 accuracy 可能都会来到 0。

最近一些 benchmark 把 task 长度变长，包括 DreamZero 和 π0.5 这些前沿 action model，成功率最高可能也只有 22%。这种情况下大家都一塌糊涂，没办法衡量哪个模型好，也没办法证明进一步迭代是否有效。

所以我觉得提出一种 skill 或者原子能力的 benchmark 可能会好一点。比如哪几个任务，只要学得一个 skill，就可以复用，通过复用完成更长任务。

说到这里，我感觉 world action model 未来可能只会作为底层 control，顶层还是一个 VLM 或者 LLM 做分解和规划。我更想把它作为 tool。最终如果它比较理想，能完成各种各样原始任务，就有点像：顶层用 LLM 或者比较大的 VLM 规划，底层是我们熟知的 world action model。

研究者|生成式 WM 评测

我之前在美团做动态评测。我们当时做音视频质量评测，从 2025 年 10 月开始，看生成出来的视频，它的音频和视频能不能对应，是不是一致。

我们会把音频维度做拆解，分成画内音和画外音。画外音不和视觉内容对应，所以我们只找画内音对应。

画内音和画外音怎么理解？比如生成一个视频，视频中可视地发生动作，一个人在说话，有口型，这个人的声音是从这个人发出来的，这叫画内音。屏幕外的人在说话，我们看不到这个人的表征，这叫画外音。包括乐器，包括水掉地上的声音，也可以分画内和画外。

我们通过这样的拆解，让 Gemini 3.1 Pro 完全自主做这些评测。通过把数据集分成画内、画外和混合的 set，可以让 Gemini 3.1 Pro 在没经过微调的情况下，跟人类做 80% 左右的对齐。

现在我关注生成式世界模型的评测。我们也在尝试用 latent 的 V-JEPA 去评测 Veo 3.1 或者 Sora 2 这种模型。

我们发现可以分成三种方向给它做 judge。

第一个方向，让 VLM 直接做理解，比如 Gemini 可以直接把整个视频作为 input。

第二个方向，用潜空间的世界模型，比如 JEPA。给它前 16 帧，看它后面生成的帧是不是和实际帧在距离上接近。如果比较远，我们叫 surprise 值，它的惊讶度会比较高。

第三个方向，用像素级别、用 pixel 的方法追踪，比如 Co-Tracker。我们追踪运动像素点，实现加速度这类计算。

但每个方向都有 gap。像素级追踪会受到视角变化和光线强烈干扰；VLM 会观察不到一些具体形变，以及特别细节的物理上的量的改变；JEPA 的 latent 是没有解释的，只会输出一个距离的值。所以我们打算把这三个结合起来，做成一个 agent 式的测评体系。

因为我不是做具身的，所以一直想看看能不能把 task 加进来，这样会更完整。我目前还在考虑多学习一下具身用 pass 作为指标的评测。但这些方向单独拿出来，每一个都没法测完全，都有 gap。

所以我在想做这样一个 system。它肯定不能用人工来测，因为我们要达到 500 或者 1000 的量级，我觉得量越大越好。

话题四：Benchmark 能不能像游戏一样设计

创业者|具身智能

我补一点原理性的分享，讲点好玩的。

刚才大家提 benchmark 时，一直在聊 zero-shot、few-shot，试图去 bench 这些很特殊的 case。我们之前做机器人时，每天都在试图测这样的 case，每天让机器人想方设法找到水杯掉到这种特殊场景。

大家小时候应该听过爱迪生造灯泡的故事。大概是爱迪生那个公司用了三年时间，每天换不同灯丝，终于有一天发现钨是最好的材料。今天具身就在干这种 stupid 的事情。我们在做一个大模型，试图 scaling，试图做出一个 AGI-level 的 super intelligent，但我们用一个可能三百年前造灯泡的方法，这是一个很搞笑的事情。

训练模型总共就三个事情：data、model、benchmark。Benchmark 受物理世界影响，代表了某些应用场景。它们是一个强耦合过程。模型能力和数据数量决定 scaling 的能力边界，但怎么去 scaling、如何知道模型能力边界，是由 benchmark 定义的。Evaluation 的效能，也就是迭代速度，完全被 benchmark 限制。

今天我们还可以继续做准确率，刚才提到的 omni bench 我觉得是很好的 paper、很好的 idea，我们自己也在做。但把时间拉长看，具身模型不可能再用准确率做 evaluation。如果再用准确率，难道要像爱迪生一样尝试那么多年才能出结果？鸡和蛋的问题永远解不了。

我们从小接触一个东西，它天然不以准确率为标定，天然有 level up 的难度等级设定，天然可以告诉你，你有多聪明，你正在做的范式有多聪明。你可以去挑战，每过一关就更强。这个东西叫游戏。

如果用游戏化思路设计机器人的 benchmark，就可以得到一个在准确率以外的新解题方式。我们不再用准确率多少、99.9 后面有几个 9 去标定模型成功与否，而是像走迷宫一样，看你可以走到多少难度级的迷宫。

在这种益智游戏测评之下，你永远可以找到无限的 OOD。比如汉诺塔，可以解到 5 层，可以解到 10 层，如果变成 1 亿层，就有无限 OOD。在这种特殊情况下，世界模型似乎可以找到自己的、类似语言模型里数学题的黄金 playground，纯视觉推理模型也可以找到一个 evaluation benchmark。

在这条路上，模型和 evaluation 被加速，模型架构可以更快被探索出来，encoder、data 范式也会反向被定义。

Summary 一下，benchmark 是我自己觉得最好玩的事情。我们可以不用那么 serious 地看它，而是更 general 地讨论它和到底怎样迭代，而不是只把所有事情做得精细。

现场提问

你这种做益智游戏的方式，能适应所有世界模型吗？我理解，对于某些特定任务需求，比如工厂里分拣的机器人，或者 Figure 今天发的 18 小时直播那种，它的任务形态非常固定。

创业者|具身智能

这就是问题的两面性。如果我们讨论连续工作和精度问题，它天然不一定需要世界模型。

如果它是点到点，我们当然可以用爱迪生造灯泡的方式，试到最好的钨丝。试出来之后，可能几百年都不会变。

工程师|自动驾驶

刚才大家提到极端数据的问题。因为我接触车比较多，在车上其实有很多长尾数据问题，但车上长尾数据还是比较容易采集的。

刚才有同学说在真机上部署，然后在真实环境里采集问题。这恰恰是量产车很容易做的一件事。因为大家都在用，这种模式已经很成熟。所以长尾问题在我们看来采集不是很难，但泛化到具身、或者人形上，可能会更困难。

关于 benchmark，这确实是我最开始说比较关心的点。我们感觉很容易陷入一种情况：发现当前没有解决好的 case，就急着把这个 case 加到 benchmark 里面。随之产生的问题是 benchmark 越来越多。

然后你训模型时，想得到一个结论，就要跑成千上万个任务，才能得出结论。所以刚才游戏化的点我挺好奇，也没有完全听懂：是不是也像人为定义一些简单任务，再往难的做？

创业者|具身智能

从我自己知道的来看，定义难度等级一般有两种。

一种是人专门设计不同关卡难度。游戏策划会专门做这件事。但这种关卡难度往往是更平行、更 balance 的游戏难度设计，不一定有显性的梯度。

另一种有点类似益智游戏。益智游戏的难度增长是数学性的。比如迷宫，等级代表多少个维度的入口。随着迷宫层级递升，复杂度指数上升。这种 level 可以被数学性、自然地定义。两类都可以深挖。

研究者|生成式 WM 评测

如果不借助数学，是不是可以借助 agent？比如把一个 agent 塞进游戏 boss 里，让评测自进化。

创业者|具身智能

可以这么类似。但游戏的 boundary 是你定义的，agent 本质上我觉得没有太大差异，无非是手写还是用 agent。

话题五：长时间 rollout 与 simulation 的可能性

现场提问

大家现在用世界模型的时候，会关注在里面长时间 rollout，把它当作 simulation 用，然后保证长时间 rollout 不会崩溃吗？

研究者|生成式 WM 评测

这个还挺有意思。我最近在毕业设计里也引入了这个，我们叫视频延长。

我们可以尝试把一个 prompt 反复输入给视频生成模型，观察它在长时任务里的连续状态变化。比如给一个初始帧：一个人往水杯里倒水。随着这个任务 rollout 三次或者四次之后，水会倒满、溢出来。那么它什么时候溢出来？溢出来的速度是什么样？它怎么判断杯子边缘到了？在倒流体的过程中，盛满水杯的速度是不是会越到快满的时候越慢？

至少 Veo 3.1 现在有这些问题。可灵和 seedance 2.0我还没有测。

研究者|具身智能 + WAM

我觉得这个东西对具身来说很重要。因为如果这个性能或者方向有突破，我们或许可以替代、甚至完全抛弃真实环境 RL。以前大家可能觉得在真机上做 RL 效果会比较好，但实际部署中会有很多代价和安全隐患。

如果真的能在这个方向上从世界模型上有突破，把世界模型当成一个安全的 simulation，支撑分钟级自主 rollout，就可以真正实现类似大模型训练之前那样。通过大规模并行，用 compute 去做 simulation，实现很多任务性能突破，突破到 99% 到达合格率水平。

但这里有一点鸡生蛋、蛋生鸡的感觉。你想让它实现很长时间 rollout 不崩溃，本质上需要补充大量 corner case，或者还没有见过的异常情况。

比如现实中绝大部分任务都是拿起一个杯子去做事，很少会有杯子掉到地上、碎了之后怎么办这种 corner case。但这些又是世界很多本质物理规律会驱动的情况。这样的 data 非常稀少。缺少这种 data，它必然不可能很好建模这个东西。

要补充这样的能力，就需要大量收集这样的 data。Data 怎么来？很有可能需要大量机器人先被部署到世界中去 rollout。比如它会把杯子打碎，可能会把桌子撞翻。有大量这些规律之后，它可能学会。但这种大规模部署在商业角度是不 make sense 的。所以这是一个鸡生蛋、蛋生鸡的悖论。

研究者|生成式 WM 评测

视频验证还有一个问题：现在很多模型没有办法把之前所有视频生成结果作为 context 输进去。很多模型只支持首帧。比如 Veo 3.1 做了一个特别的 API，可以把之前所有视频全都变成 context 去做延长，这个很好。但其他很多模型没有这样的功能。

极端 case 也挺有意思。我之前测试过，如果我跟它说重力 g 值变成 0，没有重力，它会怎么样。Veo 模拟得还挺对，它对于这种数据也有一些建模能力。

现在最难的一点是，benchmark 受限于视角。固定视角机位能评测到一个比较合理的水平，但如果视角一直转，对评测会造成非常大的困扰。

话题六： World Model 是否存在 test-time scaling

现场提问

我想提另一个问题：World Model 的 test-time scaling，大家有关注或者衡量方式吗？也就是说，world model 在 test time 上时间越长，做得会不会越准？如果让它 run 的次数不是一次，而是 100 次、1 万次，最后能总结出来的结果会不会更好？这是不是一个很重要的标准？

创业者|具身智能

关键在 critical model。Test-time scaling 完之后，怎么判断哪个 rollout 是最好的？然而满足这个事情的前提条件暂时还没有。今天大家只有 long video generation，它是延续性，但在有不同变化节点的 long context、multi-step generative model 中，我们还没有看到这样的模型出现。

我们可以看到一个人走 10 分钟的视频，但看不到这个人走在路上，跟人打了一架、发生各种疯狂变化的视频。所以我觉得你们说的点是对的，它确实是一个很原理性的问题，但现在前置条件还不成熟。

研究者|机器人操作 + 机器人世界模型

关于 test-time scaling，我从具身角度补充一下。具身里类似特性，近期已经有点被观察到了。最近 pi 出的关于 long and short memory 和 Robotics 的一篇文章里，观察到一个现象。

无论是世界模型还是 video 有很不一样的点：机器人某一步输出任何动作，无论这个动作对还是错，世界都会返回一个真实的观察，因为它有摄像头。我可以知道这一步之后发生了什么，这件事是整个世界给你的。

无论动作是否正确，我在 context 里存的所有 history，都是这个世界可能发生的情况。这个东西带来一个很有意思的点：我们可以利用 context 弥补纯 visual 或者 2D visual 模型的 partial observation 问题。

举个例子，我现在想开冰箱。如果我是用一个 VLA 做，我可能试一下右边这个门能不能打开。但对 VLA 来说，由于没有 history、没有 memory，它会一直试右边的门，因为它不知道上次已经试过了。它会一直在那里试，一直打不开。

如果是一个带 memory 或 history 的模型，它知道我开右边打不开，这时候是不是应该试试左边的门，然后就会移过去开左边。

这个事情有点类似 test-time scaling：你在真正执行的时候，通过探索行为补充对世界本身更多的观测。更多观测增大了解决问题所需的信息量。很多时候问题解决不了，并不是因为 VLA 能力不够强，而是因为确实没有那么多信息量去解决。

我觉得现在基于 video 或者带 language 的东西，已经有这种特性存在。这也是我们对 world model 范式非常兴奋的原因。

话题七：什么时刻会让路线讨论结束

现场提问

假设我们收敛到现实世界的 action。什么事情发生以后，会导致大家不用讨论这个问题了？就像 GPT-3.5 / ChatGPT 发出来之后，大家不用讨论怎么做了，照着做就行。什么情况下，这个话题会结束？

研究者|机器人操作 + 机器人世界模型

我觉得可能是真正的 zero-shot / few-shot，或者 embodied intelligence 里面的通用能力。

现在机器人和 GPT 的差距还非常大。你可以认为，现存所有机器人模型，哪怕它说自己是通用机器人模型，大概率也还是一个 overfit 的东西。

机器人这边其实不存在真正意义上的 zero-shot。所有任务如果想在同一个本体上完成，通常都需要这个本体特有的数据，甚至需要当时所要做的场景数据。

但现在大家可能希望相信，world model 可以带来某种创造能力，因为它可能见过机器人以外的世界数据。所以如果有一天我们可以做到 few-shot 或 in-context learning：比如来了一个新的本体，我让这个本体做一些动作，然后把这些数据直接输给模型；在不用重新训练的情况下，模型就可以自动推导出在这个本体上怎么操作、怎么运行。

如果这个时刻能够实现，我觉得它会对机器人领域的思考带来一个很大的变动。

创业者

我非常赞同这一点。GPT-3 那篇 paper 的标题就是 “Language Models are Few-Shot Learners”。这是它最核心的 feature.

很多人觉得 ChatGPT 是 moment，但在我心目中，GPT-3 才是 key moment。因为它 few-shot，你不需要再训练，不需要重新 fine-tune 模型，就可以让它做 unseen task。

但我心里也隐隐有一种担忧：今天实现的一些 few-shot，任务定义未必是最 deliver 价值的。

我刚才也在盯另一个问题：benchmark 是什么？Few-shot 只有当它能够泛化到 benchmark 上，才是最理想状态。今天也许我们关注到一些 few-shot，它跟 task 强相关。

如果今天看到的 few-shot 是根据 action predict next state，这当然不是全部的 few-shot. Few-shot 意味着，它不仅能够泛化到 predict next state，还得泛化到 predict next action，或者 state / action 的各种组织。

Few-shot 在 World model 里面比 language 更难走。Language model 的 task 只有一种形态，就是文本，只要做 next token prediction, few-shot 就解决了。World model 的 task 比 language model 的 task 天然就复杂很多，不能只 predict language 那么简单。

话题八：如果只能问一个终极问题

投资人

最后我挺想问一个问题。

我记得刘慈欣有个短篇小说叫《朝闻道》。科学家如果有一个上帝能解决他最关心的问题，他可能觉得死而足矣。

大家在这个领域都研究了非常多。你们心目中有没有什么问题是：如果有一个上帝能给你解答，你就不枉过去几年的研究。有没有什么大家真正不清楚、想得到答案的问题？

研究者|Embodied AI + Video Generation

拿我个人来说，刚才说到想用一个比较好的 simulator 去替代真机 RL。但更重要的不是它能不能替代真机 RL。DeepMind 有篇工作在讲 video model 是否真正能够学到一些物理智能。

对我个人而言，我比较关心：对于 world model，能否真正反映物理意义上的交互？

比如不同程度的力去抓一个不同程度的软体，会产生不同程度的形变。如果它没法做到这个事情，就会不由得质疑：拿这种 world model 做 simulator，和拿一个比较好的有物理公式的仿真相比，谁才真正能够反映一定的物理？

研究者|三维生成 + 具身 WM + VLA

具身进展其实并不是由模型驱动的，而是由数据驱动的。

机器人数据的发展，一开始大家会做 Large Behavior Cloning，都是通过遥操收集数据。但遥操作流程很复杂，节拍和采集速度也不会像 video 或者 text 那么快。今天互联网视频和文字每天有很多上传，但具身没有类似飞轮。

具身从之前到现在，主要是几个大数据在推动。一个 RT-X 等项目汇聚多构型机器人数据；也有 Physical Intelligence 团队自己采了很多真机数据出了π0.5，最近一次进展是 Generalist 还有 Sunday，实现不通过真机遥操也可以采集很多数据。相对于真机遥操作，量级可能是 10 倍或 100 倍。

另一个数据方向讲很久了，2024 年就有人在讲，真正翻起来是 NVIDIA 在 EgoScale 上验证 scaling law，认为 ego-view 数据可以很大程度上扩充具身的数据量。

其实大家虽然说第一视角数据很多，但要把人当成另外一种类型的机器人，像自动驾驶一样在人身上装很多传感器，像在车上装很多摄像头一样，去采集人类数据。现在即使像 EgoScale 也只有 20000 小时，年初可能也只有 100000 小时。

我比较好奇的是，它到百万、千万小时之后，能不能真的让机器人能力出现变化？

现在大家虽然看到很多东西很 fancy，但真正做过就知道，速度非常慢，根本不可能进入现实生产和生活。第二，它们几乎没有泛化能力，可能只能在很简单的任务上实现一些简单泛化。离真正泛化还很远。

进入现实生活还有效率问题。你要跟人类一样快，才可能开始用它，而不是在那里颤巍巍地做一件事。

我觉得可能在 ego-view 收集到一个足够大的小时数之后，会有一个分水岭，看能不能做出来。如果这条路都走不通，我想不清楚具身还有什么通往泛化的方法。

所以我现在 all-in ego-view，包括现在和团队一起合作做数采和大规模 ego-view 数据清洗，做 ego-view scaling。我只想知道这件事情到底能不能成立。它可能是跨越一年、三年、五年的事情。但我心中可能只有这条路可以通往真正的具身的 AGI。

全文完

关于我们：👋 Research AI+是一个面向青年研究者的 Global开放社区。我们汇聚了AI 及 AI for Science/Engineering、Physical AI等方面的众多优秀学者、科研工作者和产业界研究员、工程师、AI项目开源贡献者和Tech Founders，是一个站在学术、产业与创业交叉点的创新型开源社区。欢迎志同道合的小伙伴关注和加入我们！👇

欢迎即将前往CVPR和ICML的朋友们，请务必备注学校+研究方向👇