

中山大学王广润：大模型的微调只是对空间建模的微调 | GAIR 2025

AI科技评论

2025-12-18

导读：物理动作前的思考，要用物理空间中的视频进行推理。

物理动作前的思考，要用物理空间中的视频进行推理。

作者丨刘欣

编辑丨高景辉

相比于虚拟世界，真实的世界充斥着动态变化的环境变量和各种各样的物理规则，这要求基础模型不仅具备强大的感知与计算能力，更需拥有理解物理规律、预判场景变化的综合能力。

在此背景下，基础模型的能力边界不断被突破，而新一代AI架构与物理世界建模作为全球AI领域最核心的前沿探索方向之一，更是成为技术突破的关键抓手。

如何通过新一代AI架构的创新迭代，赋能物理世界建模的精准化、高效化，让AI更好地理解、建模并交互物理环境。这是中山大学计算机学院的青年研究员、博士生导师，同时也是拓元智慧首席科学家的王广润博士所一直钻研的问题。

2025年12月13日，在雷峰网举办的第八届GAIR全球人工智能与机器人大会现场，王广润博士做了题为《创新基础模型，强化物理世界建模》的分享。

以下为他的演讲内容，AI科技评论做了不改变原意的编辑：

我的题目是《创新基础模型，强化物理世界建模》，我们实验室叫HCP，大概在十几年前就取这个名字了，其中就包括了physical intelligence，我们知道在具身智能领域有一家比较好的公司就叫Physical Intelligence，所以向大家汇报一下。

什么是物理空间智能

我们希望物理空间模型能够成为“物理世界操作系统”的内核，也希望未来的物理空间的智能能够通过相对应的图灵测试：可以看到这是一个比较脏乱的房间，当我们早上出去的时候，这个房间还很脏乱，回来之后它就变得很干净了，以至于我们分不清这个房间是人打扫的还是有一个AI来帮我们打扫的。有人认为这样就通过了图灵测试，但是我不这么认为。

今天在做物理模型或具身智能的时候，经常能听到一个词叫端到端，其实端到端这个词很早以前就有了。我这边放了两个slide：左边是十年前王晓刚老师在波士顿的演讲，他就提到了端到端；右边是何恺明老师在2016年纽约的一个汇报。

大家可能认为端到端有一些比较好的特点，是非端到端的分层学习所不具备的。我们今天在做物理建模的时候，也希望我们的物理模型能实现相对应的端到端，其中包括把模型里面的感知、规划和执行用端到端来实现。

如上图所示，我们的模型是相应的文本、图象还有其他的信息，先前的做法会有一个感知，得到感知之后就做相应的规划，之后就会执行。端到端的话就是把整个东西变成一个黑盒或者一个系统，一口气出来。

这样的一个端到端的物理模型，它有很多的应用，比如机器人、航天，还有自动驾驶等。我们最近有很多的相关工作。值得注意的是，前几天航天已经可以商业化使用了，所以这也是一个很好的方向。

但是端到端的特点就是需要非常多的数据来训练它，这也是为什么端到端和物理模型比较困难的原因。

端到端的系统可以进一步简化成这样的端到端：输入为各式各样的东西，比如图象、文本还有其他的状态，输出也是相应的多模态，例如文本和动作等等。

一个更加典范的端到端系统是这样的，输入是包括物理世界的一些东西，它经过一个空间的建模，得到相应的信息。然后我们再给一个指令，经过物理建模之后，它会输出物理世界的预测以及指令的分解。

不同的人对物理世界模型的理解不太一样，有一些人认为物理世界模型是对未来世界的预测、相应的分解，这是我们说的一种物理世界模型的理解。在这一框架下，预测得到的未来物理世界状态会与当前的物理世界表示共同进入空间建模与物理建模模块，从而生成具体的动作决策；这些动作最终被执行，用以与真实物理世界进行交互。

特别值得注意的是，我们发现其中的空间建模模块本身具备良好的自适应能力，这是一个非常重要的特性。进一步地，我们观察到，现阶段对大模型的微调在很大程度上可能只需要对空间建模中的一小部分参数进行微调，而其他模块并不需要调整，相关原因我将在后文中进一步说明。

我们今天围绕《创新基础模型，强化物理世界建模》的题目来讲，主要包括三个方面的内容，一个是框架，一个是模型，还有是基准。

框架：全局迭代生成

框架的进展近十年是非常缓慢的，大概在80年代到2017年，分别有三个相应的框架，比如多层感知器，卷积神经网络以及Transformer等等，对应着也有很多奖项。

但是从2017年1月之后一直到现在，现在马上到2026年1月份了，这十年的进展是比较缓慢的。

虽然很缓慢，但还是有不同的研究机构和很多的公司都想推进框架。比如Deepseek它也一直想推进一些新的架构的发展，Demis Hassibis的一个雄心壮志是想推出一个新的架构，原话是：我们发明了Transformer，所以下一个出来的架构可能也是我们做出来的。

我们的团队在框架探索方面也做了一些努力，包括在单元结算、结构计算和推理计算方面提出了一些自己的框架，我今天主要介绍第三个。

一个大模型的生成有几种形式，最常见的一种是数据生成，好比左边所示，它的字是一个一个出来的。这就是一个顺序生成的过程。

还有一种方法是全局迭代生成，比如要生成一个结果，一段文本，它可能就是先出来一个文本的整体的框架，再进行相应的调整，一下子就出来整个文章，因为这样的全局生成是非常快的。

全局迭代生成有一些优势：首先它是一个考虑全局性的渐进精化的过程，天然的自带推理能力。以左边这张图为例，这是毛主席的一首诗词，他在写这首词的时候可能先写完，再对其中一些不满意的地方修改，然后出来相应的诗词。这一种生成方式就是生成之后还会对其中一些进行推理推敲。相比之下，现有大模型在生成时往往采用严格的顺序生成方式，逐字输出，一旦生成便无法回溯修改。这种方式更接近于“誊写”而非“创作”，体现的是不同的生成范式。

全局迭代生成的第二个优势是很快，刚才的例子一眨眼就出来了，这里也体现了另一个例子，在代码设计方面，它也是比逐个的自回归生成快很多。

第三个优势是它能实现多模态的统一，因为我们的图像也是这样一个迭代的生成，如果文本和其他的模态也是这样生成的话，都会有利于他们之间的统一。

刚刚讲到了图像的生成是利用一个连续的扩散模型，是在连续信号上做这样的生成，比如我要生成一个小鹿，它最开始的时候是相应的一个噪声，这个噪声经过几次迭代之后，慢慢出来一个小鹿。

这个东西不可以直接用在语言上的，因为语言是一个离散的信号，比如图中的“this is a cat”，这就没办法往上面加噪声，而且它的训练的损失函数也是一个交叉熵的损失函数。

在语言生成领域，已有一类方法被称为离散扩散模型，它主要有三种：第一种最传统，是用马尔可夫的性质实现它，一开始输出相应的文本，再跳转别的文本，慢慢出现这种文本，但是这种方法是目前最差的，因为它依赖马尔可夫的假设，很容易形成这样相应的误差。

第二种方法是在连续的embedding空间中做扩散，例如将输入 “this is a cat” 映射到嵌入空间后，在该连续表示上进行去噪。但这种方法存在天然缺陷：embedding模型和扩散模型需要同时学习，容易发生表示坍塌。模型可能走捷径，将embedding投影到接近零的空间，使去噪变得过于容易，从而产生shortcut learning，最终难以学到有效表示。

为了避免shortcut learning，一种常见思路是借鉴Stable Diffusion的做法，先预训练一个自编码器，将文本映射到连续的潜在空间中。然而，在这种分阶段训练框架下，自编码器本身的学习仍然较为困难，且整体的分阶段训练在性能上往往并不理想。

其实在扩散语言模型中，现在用得最多的方法是基于mask的方法，这便是第三种方法。这个方法是把词给随机的盖住，来预测盖住的是什么词语，通过交叉熵的形式预测出来。这种方法跟BERT架构是非常接近的，它其实跟图像领域的扩散模型还是很不一样，它是通过掩盖的形式预测出来，我们也证明了它在超额风险上存在一些不足，所以现在的扩散语言模型用这套方法还是不太理想。

所以我们提出了一个非常不一样的全新的扩散模型，叫做原位推理的离散扩散模型。原位的意思是指我们离散的信号可以编码成这样一个one-hot的表示，就是001这样的一个编码。我们可以直接在one-hot表示上加噪声，然后给它去噪。这个方法是直接在离散信号上做加噪去噪，取得了意想不到的好的效果。

它的前向过程是直接对one-hot进行加噪，去噪就是给一个随机的高斯噪声，慢慢去噪，最后跟我们的离散扩散模型非常的一致。

我们也给出了一些理论上的分析，因为它遵循了Tweddie’s formula这个比较著名的恒等式，所以满足这个fisher divergence的特点，所以使得它的训练和测试都非常稳定。

我们也做了一些相应的实验，比如这是单个token的生成，结果非常好。

在一些文本生成的实验上，我们比现有的基于Mask的方法（MDD这一行）也有比较大的提升。可以看到图中的第二行的最后一列，这是现有的基于Mask的方法出来的结果，出来的句子其实是比较差的。相比之下，我们刚才非常简单的方法，出来的效果就非常好。我们也正在准备发布一个这样的比较大的语言模型。

这是去噪的过程，可以看到随着迭代的变化，token从一个非常不确定的状态，慢慢的把离散信号给预测出来了。

这是一个去噪的可视化结果，可以看出来，在第90的时候还是比较乱的，慢慢的到第10之后，相应的文本就会出来。

模型：E0具身大模型

有了跟别人不一样的框架之后，就开始训练我们的模型。现在机器人的模型里面大家用的比较多的是VLA模型，但它存在着很多的瓶颈：首先，其泛化能力不是很强，机器人在一个环境中使用，但是到另外一个环境，跌得特别厉害。

其次，动作控制的精度仍然较为粗糙，例如让机器人完成插插头这类精细操作在实际中仍然非常困难。第三，则是建模范式上的不一致性。以刚才提到的经典模型 Π0 和 Π0.5 为例，其前端依赖预训练的语言模型，采用的是离散建模过程，而后端则引入了基于连续信号的扩散模型。这种从离散到连续的建模切换在范式上并不完全兼容。事实上，现有许多知名的VLA模型大致都可以归为这两类：要么基于离散建模，要么基于连续扩散建模。

我们提出了一种新的具身大模型E0，其核心采用了我们新提出的扩散模型。该模型能够实现对动作精度的高分辨率建模与分级，从而具备更高的控制灵活性。此外，我们还引入了球面视角表示来训练模型，以增强其对复杂空间结构的建模能力。

这就是我们提出的整体框架，其中包含一个VLM，以及我们刚刚提出的一种新的离散扩散模型。

可以看一下我们的结果：在很多数据集上都表现得非常优秀，例如LIBERO、ManiSkill、VLABench上都取得非常好的效果，跟那些基线模型在相同情况下对比，可以发现我们在精细操作、场景理解、长程任务上都表现得非常突出。

这个是RoboTwin的另外一个数据集，可以看出左边这一列是单臂的机器人，右边是双臂的机器人，我们的方法在很多任务上都有明显的提升。

我们的模型在真机实验上也比较优秀，采用了五个短程任务和三个长程任务来做实验。最下面这行是跟 Π0 相比的结果，效果还是有比较大的提升，并且在很多的任务上有很强的泛化性。

从消融实验可以看出来，我们支持任意大小的离散化分块数量，控制程度可以非常的精细，控制动作的维度跟真实的机器人接近时表现更好。

这是LIBERO的数据集，是大家用得非常多的一个数据集，可以看到我们在很多任务上都做得非常好。

这是另外一个数据集ManiSkill，有一个比较难的任务就是插销和插插座，看起来这个任务简单，但在真实的应用中，插插座还是非常难的，因为我们可以做到非常精细的控制，这种任务也完成的不错。

这是另外一个数据集上的结果VLABench，这里我们让机器人打牌或打麻将，它能够比较好的识别到我们要取的是哪张牌，哪个麻将，来进行相应的操作。

我们来看几个真机的任务，比如捡方块、按按钮、关微波炉门，开抽屉以及叠方块等等，这些任务上都表现得非常棒。尤其是在长程任务上，例如先拉开抽屉再放入方块、将碟子放入微波炉并关闭炉门、以及依次将方块叠放在碟子上，模型展现出了非常稳定且出色的表现。

还在一些没有见过的场景里面，它的泛化也是非常强的，这些都是我们没有训练过的场景，以及在被人为打断的任务中，它原来要拿两个方块，拿到一半的时候，有人把这个东西推开了，它还是很棒的执行下来。

我这里还想分享一个观点，在具身机器人VLA的任务中，有一个比喻是：我们在一个监控中心看不同房间的监控视频，通过监控视频来遥操我们的机器人做一些事情。

我的意思是：当我们通过熟悉某一个房间中监控视频与机械臂运动之间的对应关系后，确实可以学会远程操控该房间内的机器人完成任务；但当场景切换到另一个房间时，是否能够立即泛化到新的监控视频与机械臂运动关系，从而直接成功遥控另一台机器人？实际上，这是做不到的。人已经是一个非常泛化的智能体了，但是到了一个新场景，再去控制机器人的话还是做不到。这说明了一个问题，为什么现在具身智能这么难的原因，是因为我们需要进行一个解耦，把物理模型和空间模型进行解耦。

我认为人在相应的环境下需要做相应的适应。举个例子：一台能够在你家环境中完成家务的机器人，当被部署到我家时，能否通过一次快速的环境适配过程（类似于机器自检或校准），同样胜任我家环境中的家务任务？

所以我们提出的新方法，就是把物理模型解耦成两部分，一个是物理建模，一个是空间建模。以图中所示框架为例，这是一个典型的 Π0 / Π0.5 架构。我们的实验表明，整个模型在适配新环境时无需对大部分模块进行微调，只需在视觉模块中调整约四千个或者4M个参数，便可实现良好的适应效果；仅使用一条样本即可完成有效微调。