Xbotics Talk 第七期｜RobustVLA：让 VLA 在真实世界不再“玻璃心”



Xbotics Talk 第七期｜RobustVLA：让 VLA 在真实世界不再“玻璃心”

Xbotics具身智能实验室

2025-12-08

导读：仿真里 95% 成功率，上真机直接“表演翻车”？VLA 一旦遇到观测噪声、传感器误差、执行扰动，为什么这么脆？

点击下方卡片，关注【Xbotics具身智能实验室】公众号

更多具身干货，欢迎加入【Xbotics知识星球】你想要的这里都有~~

仿真里 95% 成功率，上真机直接“表演翻车”？
VLA 一旦遇到观测噪声、传感器误差、执行扰动，为什么这么脆？

Vision-Language-Action（VLA）模型这两年已经成了机器人操作领域的“标配范式”：从 RT 系列，到各种开源 VLA，大家都在用“图像 + 语言指令 → 动作”来做通用策略。大规模多模态预训练，让它们在仿真、在 benchmark 上表现非常亮眼。(arXiv)

但一旦落到真实世界、落到分布外场景（OOD deployment），问题就来了：

相机稍微抖一点、光照变一变，成功率就掉得非常夸张

传感器有延迟、执行器有偏差，策略完全没预料过

传统的 RL / IL 微调，大多只管“刷分”，很少直接面向鲁棒性目标设计

Xbotics Talk 第七期，我们就来聊：如何用在线强化学习后训练，让 VLA 在真实世界里真正“抗造”？

嘉宾介绍

本期嘉宾：

张洪银

西湖大学博士四年级，导师为王东林老师
主要研究兴趣：视觉-语言-动作模型（VLA）、强化学习、机器人
相关论文已发表于 ICLR, ICML, NeurIPS, RSS, IROS 等顶级机器学习与机器人会议
维护了一个整理 VLA / VLN / VA 等具身智能工作的开源仓库 _awesome-embodied-vla-va-vln_，持续跟踪领域最新研究进展 (GitHub)

Google Scholar：
https://scholar.google.com/citations?user=PXrMYi8AAAAJ&hl=zh-CN

从顶会论文到开源列表，再到这次的 RobustVLA，可以说是把“VLA + RL + 机器人”这条线一路做穿。

工作简介：RobustVLA 想解决的“痛”到底是什么？

RobustVLA 的起点其实很“工程”：

预训练好的 VLA 模型，怎么在有噪声、有扰动的真实环境中保持稳定可靠？

已有的 RL 后训练（reinforcement post-training）方法，确实可以在具体场景里把成功率拉上去，但大多数方法的目标函数仍然是“最大化奖励”，而不是“显式地优化鲁棒性”。这就导致模型在新噪声、新扰动、新场景下，依然容易翻车。(arXiv)

RobustVLA 提出的是一条“轻量级、原则化、鲁棒性优先”的路线：

1.在线 RL 后训练，但带“鲁棒性意识”

不只是多 roll 多刷几条轨迹，而是在优化目标中显式加入“对噪声不敏感、对扰动平滑”的约束。

2.系统鲁棒性分析 → 拆解出两个关键正则项 (arXiv)

雅可比正则化（Jacobian Regularization）

控制策略输出对观测的敏感度
直观理解：同样的动作，不希望因为相机略微偏一像素、亮度变一点点就完全变形

平滑正则化（Smoothness Regularization）

约束在动作扰动（如执行器噪声）下，策略不要“情绪化”
直观理解：电机指令有点抖，但整体行为还是要“顺滑”，而不是一顿乱操作

3.大量仿真实验 + 噪声/扰动挑战

在多种机器人环境下，RobustVLA 在观测扰动（平移、旋转、颜色抖动、遮挡等）和动作扰动下都显著优于现有 offline IL / offline RL / online RL 方法，尤其是在组合扰动场景中，成功率提升更明显。(Moonlight)

一句话总结：

RobustVLA 用一套非常“克制”的正则化 + 在线 RL 后训练，让预训练 VLA 在噪声、扰动和 OOD 场景下变得更稳、更具有“工程可用性”。(arXiv)

论文链接：
PDF：https://arxiv.org/pdf/2511.01331v2
arXiv 页面：https://arxiv.org/abs/2511.01331

本期 Talk 大概会聊些什么？

可参考的内容大纲（实际以嘉宾为准）：

1.从 VLA 到 RobustVLA：问题到底出在哪？

预训练 VLA 的优势与局限
仿真 → 真实、IID → OOD 时常见的“翻车模式”

现有 RL 微调/后训练方法的优点与盲区

2.RobustVLA 的方法设计思路

为什么要做“鲁棒性分析”？
如何从理论上推导出：影响鲁棒性的核心就是“对观测的敏感度 + 对动作的平滑性”？
Jacobian 正则、Smoothness 正则分别怎么实现、怎么和 RL loss 组合？

3.实验设置 & 结果解读 (Moonlight)

使用了哪些环境、哪些扰动设定？
在哪些维度上超越了传统 RL / IL 方法？
哪些现象是“违背直觉但很有启发”的？

4.对一线研发有什么实操启发？

如果你已经有一个 VLA / VLM policy，怎样往“RobustVLA 的思路”迁移？
哪些正则、哪种噪声注入方式对真实落地最有价值？
真实机器人上做在线 RL 时必须踩过的坑（安全、采样效率、工程复杂度）

5.未来方向：VLA + RL + 真实世界鲁棒性

和其它 RL post-training 工作（如 RIPT-VLA 等）的关系 (Moonlight)
测试集/benchmark 之外，我们该如何重新定义“成功率”“鲁棒性”“可靠性”？

谁适合来听？

正在做 / 准备做 VLA 模型（OpenVLA, RT 系列, π0, 自研 VLA 等） 的同学
在真实机器人上折腾过“仿真很强，一上真机就寄”的研发 & 学生
想把 RL 从“论文”变成“后训练工具” 的研究者 & 工程师
正在关注“具身大模型 + RL + 工程落地”的学生、求职者、团队负责人

你能带走什么？

一套面向鲁棒性的 VLA + RL 后训练的思维框架
对“雅可比正则 + 平滑正则”这种设计背后的直觉和理论理解
对如何从 benchmark 走向真实世界更清晰的路径感
如果你正在做自己的 VLA / 机器人项目，可以直接对标思考：

我们的系统，能不能也加一点“RobustVLA 风格”的鲁棒性约束？

活动信息 & 参与方式

活动名称：Xbotics Talk 第七期
主题：RobustVLA：鲁棒性优先的 VLA 强化学习后训练
嘉宾：张洪银（西湖大学博士四年级）
时间：12 月 9 日（周二）晚 19:30

最后留一个小小“预习任务”👇

打开 RobustVLA 论文，把 abstract + introduction 读一遍，想一想：

如果是你来设计“让 VLA 更鲁棒”的 RL 后训练，你会往 loss 里加什么？

带着自己的想法来听第七期 Xbotics Talk，和 RobustVLA 的设计做个对比，收获会大很多🌟

【声明】内容源于网络

Xbotics具身智能实验室

学习机器人与具身智能技术：1、国内独家机器人具身智能社群圈子人脉。2、Xbotics具身智能社区知识库 https://yv6uc1awtjc.feishu.cn/wiki/WPTzw9ON0ivIVrkLjVocNZh8nLf。

内容 353

粉丝 0

Xbotics具身智能实验室学习机器人与具身智能技术：1、国内独家机器人具身智能社群圈子人脉。2、Xbotics具身智能社区知识库 https://yv6uc1awtjc.feishu.cn/wiki/WPTzw9ON0ivIVrkLjVocNZh8nLf。

总阅读144

粉丝0

内容353