现有视觉 - 语言 - 动作(VLA)模型陷入两难:离散建模受限于词汇量,无法实现细粒度控制;连续扩散与预训练 VLM 语义错位,且与真实机器人的量化控制特性不符。中山大学团队提出E₀框架,基于 “连续化离散扩散”,让动作生成同时具备 VLM 兼容性、细粒度控制和强泛化能力,在 LIBERO、VLABench 等 14 个环境中平均超基线 10.7%,真实 Franka 机械臂操纵成功率达 45.6%,刷新 VLA 模型性能上限!

现有 VLA 模型的两大核心痛点
论文直指当前 VLA 建模的根本缺陷,所有结论均来自实验分析:
离散建模局限:AR 模型或掩码扩散依赖语言分词器,动作词汇量受限(通常 256 bin),无法满足细粒度操纵需求;掩码扰动导致分布不匹配,破坏正向 - 反向一致性;
连续扩散错位:连续空间与 VLM 的符号结构语义不兼容,且与真实机器人的量化控制(编码器分辨率、控制频率等)本质矛盾,泛化能力弱。

E₀核心创新:连续化离散扩散框架
E₀的核心是 “将动作生成建模为量化 token 的迭代去噪”,既保留离散建模的 VLM 兼容性,又突破词汇量限制,具体设计均来自论文:
动作离散化与连续化扩散:采用分位数离散化,支持最高 2048 bin 的细粒度词汇量(远超传统 AR 模型的 256 bin);直接对 one-hot 动作向量加高斯噪声,遵循 Tweedie 公式,保持正向 - 反向一致性,避免掩码扩散的分布失配;
VLM 兼容与机器人控制对齐:离散 token 天然匹配 VLM/VLA 的符号结构,强化语义条件;同时贴合真实机器人的量化控制特性,贝叶斯最优去噪器能建模正确的离散动作分布,泛化性更强;
高效推理:推理时复用观测的 KV 缓存,仅更新动作 token,迭代去噪后确定性解量化为连续动作,兼顾效率与精度。

关键增强:球形视角扰动,提升跨视角鲁棒性
真实场景中相机视角变化易导致 VLA 模型失效,E₀提出 “球形视角扰动增强”,无需额外数据即可提升鲁棒性:
基于相机 - 场景几何,对输入图像进行球面上的偏航 - 俯仰旋转扰动,模拟动态相机视角;
引入相对球形嵌入,将相机的径向、水平、垂直位移编码为 token,与图像特征融合;
联合训练扰动图像与嵌入,减少模型对固定视角的依赖,跨视角一致性显著提升。

实验结果:仿真 + 真实世界双碾压 SOTA
论文在 3 大仿真基准和真实 Franka 机械臂上全面验证,所有数据均来自论文官方实验:
1. 仿真实验(LIBERO/VLABench/ManiSkill)

综合成功率:E₀平均达 60.8%,超 π₀(51.4%)、π₀.5(50.1%)等基线 10.7%(数据来源:论文 Table1);
细分任务优势:LIBERO-Long(长程任务)成功率 92.2%,ManiSkill 插销任务达 24%(远超基线的 0-13.2%),VLABench 扑克抓取成功率 72%(基线最高 30%);
视角鲁棒性:加入球形视角增强后,E₀在 LIBERO 的平均成功率从 66.5% 提升至 83.9%,碾压 π₀的 50.8%(数据来源:论文 Table3)。


2. 真实世界实验(Franka 机械臂)
8 类任务覆盖短 / 长程操纵,E₀平均成功率 45.6%,超 π₀(43.1%)、π₀.FAST(10.0%)(数据来源:论文 Table2);
泛化亮点:堆叠任务中交换红 / 绿方块位置(训练未见过),E₀仍能正确识别并完成堆叠;拾取任务中应对物体位置变化,动态调整动作。

核心贡献与研究价值
E₀的突破为 VLA 模型提供全新范式,核心贡献来自论文官方定义:
提出连续化离散扩散框架,支持任意细粒度离散化,兼顾 VLM 兼容性与机器人控制对齐;
设计球形视角扰动增强与相对球形嵌入,大幅提升跨视角鲁棒性;
在 14 个多样化环境中实现 SOTA,真实机器人操纵验证实用性,为通用 VLA 政策学习指明方向。
论文出处
标题:《E₀: Enhancing Generalization and Fine-Grained Control in VLA Models via Continuized Discrete Diffusion》
作者:Zhihao Zhan, Jiaying Zhou, Likui Zhang, et al.(中山大学、广东工业大学、X-Era AI Lab)
项目开源地址:https://doo-mon.github.io/e0web/
发表版本:arXiv:2511.21542v1 [cs.RO]
版权声明:本文内容均来源于上述论文,版权归原作者及所属单位所有,转载请注明出处。
关注【具身智能制造】,每周拆解机器人与 AI 领域顶会,带你紧跟前沿技术~

