大数跨境
0
0

VLA 模型新标杆!E₀用离散扩散突破泛化瓶颈,14 个环境 SOTA,真实机器人操纵精准度拉满

VLA 模型新标杆!E₀用离散扩散突破泛化瓶颈,14 个环境 SOTA,真实机器人操纵精准度拉满 具身智能制造
2025-12-05
0
导读:中山大学团队提出E₀框架,基于 “连续化离散扩散”,让动作生成同时具备 VLM 兼容性、细粒度控制和强泛化能力。

现有视觉 - 语言 - 动作(VLA)模型陷入两难:离散建模受限于词汇量,无法实现细粒度控制;连续扩散与预训练 VLM 语义错位,且与真实机器人的量化控制特性不符。中山大学团队提出E₀框架,基于 “连续化离散扩散”,让动作生成同时具备 VLM 兼容性、细粒度控制和强泛化能力,在 LIBERO、VLABench 等 14 个环境中平均超基线 10.7%,真实 Franka 机械臂操纵成功率达 45.6%,刷新 VLA 模型性能上限!




Fig.1 清晰展示核心差异:(a) 传统离散建模(AR / 掩码扩散)词汇量有限;(b) 连续扩散与 VLM 语义错位;(c) E₀融合 AR 式条件与连续化离散扩散,红色标注 “迭代优化 + 符号结构兼容”,兼顾效率与细粒度控制。



01

现有 VLA 模型的两大核心痛点

论文直指当前 VLA 建模的根本缺陷,所有结论均来自实验分析:


  1. 离散建模局限:AR 模型或掩码扩散依赖语言分词器,动作词汇量受限(通常 256 bin),无法满足细粒度操纵需求;掩码扰动导致分布不匹配,破坏正向 - 反向一致性;

  2. 连续扩散错位:连续空间与 VLM 的符号结构语义不兼容,且与真实机器人的量化控制(编码器分辨率、控制频率等)本质矛盾,泛化能力弱。

0943926c-3a58-4569-a311-87752cc7ee50.png




Fig.2 展示 E₀的核心设计:(a) 基于 PaliGemma VLM 和动作专家的整体架构;(b) 训练时将动作离散为 one-hot 向量加高斯噪声,推理时迭代去噪,红色标注 “离散 token + 连续化扩散”,完美解决上述两大痛点。


02

E₀核心创新:连续化离散扩散框架

E₀的核心是 “将动作生成建模为量化 token 的迭代去噪”,既保留离散建模的 VLM 兼容性,又突破词汇量限制,具体设计均来自论文:


  1. 动作离散化与连续化扩散:采用分位数离散化,支持最高 2048 bin 的细粒度词汇量(远超传统 AR 模型的 256 bin);直接对 one-hot 动作向量加高斯噪声,遵循 Tweedie 公式,保持正向 - 反向一致性,避免掩码扩散的分布失配;

  2. VLM 兼容与机器人控制对齐:离散 token 天然匹配 VLM/VLA 的符号结构,强化语义条件;同时贴合真实机器人的量化控制特性,贝叶斯最优去噪器能建模正确的离散动作分布,泛化性更强;

  3. 高效推理:推理时复用观测的 KV 缓存,仅更新动作 token,迭代去噪后确定性解量化为连续动作,兼顾效率与精度。

8365973a-def6-44c0-a022-5e82097ead83.png




Fig.3 展示 E₀的评估场景:(a) LIBERO 涵盖空间推理、物体泛化等任务;(b) ManiSkill 聚焦插拔、堆叠等细粒度操纵;(c) VLABench 需语言接地与常识推理,红色标注 “多场景、高难度”,全面验证泛化能力。
03

关键增强:球形视角扰动,提升跨视角鲁棒性

真实场景中相机视角变化易导致 VLA 模型失效,E₀提出 “球形视角扰动增强”,无需额外数据即可提升鲁棒性:


  1. 基于相机 - 场景几何,对输入图像进行球面上的偏航 - 俯仰旋转扰动,模拟动态相机视角;

  2. 引入相对球形嵌入,将相机的径向、水平、垂直位移编码为 token,与图像特征融合;

  3. 联合训练扰动图像与嵌入,减少模型对固定视角的依赖,跨视角一致性显著提升。

3221dc91-3ec5-4372-bcab-405691120e8a.png




Fig.4 展示 “拾取黑桃 3” 任务:π₀、π₀.FAST 等基线要么误识别目标,要么抓取不准,E₀(右)精准识别并稳定抓取,红色标注 “语义接地 + 细粒度控制” 的双重优势。



04

实验结果:仿真 + 真实世界双碾压 SOTA

论文在 3 大仿真基准和真实 Franka 机械臂上全面验证,所有数据均来自论文官方实验:

1. 仿真实验(LIBERO/VLABench/ManiSkill)

4a42b700-c8f1-405d-b359-5568db49f90f.png

  • 综合成功率:E₀平均达 60.8%,超 π₀(51.4%)、π₀.5(50.1%)等基线 10.7%(数据来源:论文 Table1);

  • 细分任务优势:LIBERO-Long(长程任务)成功率 92.2%,ManiSkill 插销任务达 24%(远超基线的 0-13.2%),VLABench 扑克抓取成功率 72%(基线最高 30%);

  • 视角鲁棒性:加入球形视角增强后,E₀在 LIBERO 的平均成功率从 66.5% 提升至 83.9%,碾压 π₀的 50.8%(数据来源:论文 Table3)。

a605685a-1f70-4e18-9559-87ae53004756.png

b35059f7-74b6-4543-ab56-9093fc455ca8.png




Fig.5 展示 E₀在真实场景的表现:(a) 短程任务(按压按钮、堆叠方块);(b) 长程任务(两次拾取、抽屉操作),红色标注 “ unseen 场景也能稳定完成”,验证迁移能力。

2. 真实世界实验(Franka 机械臂)

  • 8 类任务覆盖短 / 长程操纵,E₀平均成功率 45.6%,超 π₀(43.1%)、π₀.FAST(10.0%)(数据来源:论文 Table2);

  • 泛化亮点:堆叠任务中交换红 / 绿方块位置(训练未见过),E₀仍能正确识别并完成堆叠;拾取任务中应对物体位置变化,动态调整动作。

62994bf3-4cea-4d49-ab2c-1437697d9631.png




Fig.6 揭示核心参数影响:(a) 2048 bin 离散化时性能最优;(b) 10-20 步动作视界平衡响应性与一致性;(c) 动作维度贴合数据集时表现最佳;(d) 适度 one-hot 平滑提升稳定性,红色标注 “参数设计的关键 trade-off”。
05

核心贡献与研究价值

E₀的突破为 VLA 模型提供全新范式,核心贡献来自论文官方定义:


  1. 提出连续化离散扩散框架,支持任意细粒度离散化,兼顾 VLM 兼容性与机器人控制对齐;

  2. 设计球形视角扰动增强与相对球形嵌入,大幅提升跨视角鲁棒性;

  3. 在 14 个多样化环境中实现 SOTA,真实机器人操纵验证实用性,为通用 VLA 政策学习指明方向。

论文出处

  • 标题:《E₀: Enhancing Generalization and Fine-Grained Control in VLA Models via Continuized Discrete Diffusion》

  • 作者:Zhihao Zhan, Jiaying Zhou, Likui Zhang, et al.(中山大学、广东工业大学、X-Era AI Lab)

  • 项目开源地址:https://doo-mon.github.io/e0web/

  • 发表版本:arXiv:2511.21542v1 [cs.RO]

  • 版权声明:本文内容均来源于上述论文,版权归原作者及所属单位所有,转载请注明出处。

关注【具身智能制造】,每周拆解机器人与 AI 领域顶会,带你紧跟前沿技术~

【声明】内容源于网络
0
0
具身智能制造
深耕尖端工业智能决策系统研发,涵盖高算力云化控制器与工业具身智造底座等产品,致力于实现我国高端制造与智能制造技术的自主可控!诚邀各界英才携手共进,共创行业新未来~
内容 41
粉丝 0
具身智能制造 深耕尖端工业智能决策系统研发,涵盖高算力云化控制器与工业具身智造底座等产品,致力于实现我国高端制造与智能制造技术的自主可控!诚邀各界英才携手共进,共创行业新未来~
总阅读12
粉丝0
内容41