点击下方卡片,关注【Xbotics具身智能实验室】公众号
更多具身干货,欢迎加入【Xbotics知识星球】你想要的这里都有~~
仿真里 95% 成功率,上真机直接“表演翻车”? |
Vision-Language-Action(VLA)模型这两年已经成了机器人操作领域的“标配范式”:从 RT 系列,到各种开源 VLA,大家都在用“图像 + 语言指令 → 动作”来做通用策略。大规模多模态预训练,让它们在仿真、在 benchmark 上表现非常亮眼。(arXiv)
但一旦落到真实世界、落到分布外场景(OOD deployment),问题就来了:
相机稍微抖一点、光照变一变,成功率就掉得非常夸张
传感器有延迟、执行器有偏差,策略完全没预料过
传统的 RL / IL 微调,大多只管“刷分”,很少直接面向鲁棒性目标设计
Xbotics Talk 第七期,我们就来聊:如何用在线强化学习后训练,让 VLA 在真实世界里真正“抗造”?
嘉宾介绍
本期嘉宾:
张洪银
西湖大学博士四年级,导师为王东林老师
主要研究兴趣:视觉-语言-动作模型(VLA)、强化学习、机器人
相关论文已发表于 ICLR, ICML, NeurIPS, RSS, IROS 等顶级机器学习与机器人会议
维护了一个整理 VLA / VLN / VA 等具身智能工作的开源仓库 _awesome-embodied-vla-va-vln_,持续跟踪领域最新研究进展 (GitHub)
Google Scholar:
https://scholar.google.com/citations?user=PXrMYi8AAAAJ&hl=zh-CN
从顶会论文到开源列表,再到这次的 RobustVLA,可以说是把“VLA + RL + 机器人”这条线一路做穿。
工作简介:RobustVLA 想解决的“痛”到底是什么?
RobustVLA 的起点其实很“工程”:
预训练好的 VLA 模型,怎么在有噪声、有扰动的真实环境中保持稳定可靠? |
已有的 RL 后训练(reinforcement post-training)方法,确实可以在具体场景里把成功率拉上去,但大多数方法的目标函数仍然是“最大化奖励”,而不是“显式地优化鲁棒性”。这就导致模型在新噪声、新扰动、新场景下,依然容易翻车。(arXiv)
RobustVLA 提出的是一条“轻量级、原则化、鲁棒性优先”的路线:
1.在线 RL 后训练,但带“鲁棒性意识”
不只是多 roll 多刷几条轨迹,而是在优化目标中显式加入“对噪声不敏感、对扰动平滑”的约束。
2.系统鲁棒性分析 → 拆解出两个关键正则项 (arXiv)
雅可比正则化(Jacobian Regularization)
控制策略输出对观测的敏感度
直观理解:同样的动作,不希望因为相机略微偏一像素、亮度变一点点就完全变形
平滑正则化(Smoothness Regularization)
约束在动作扰动(如执行器噪声)下,策略不要“情绪化”
直观理解:电机指令有点抖,但整体行为还是要“顺滑”,而不是一顿乱操作
3.大量仿真实验 + 噪声/扰动挑战
在多种机器人环境下,RobustVLA 在观测扰动(平移、旋转、颜色抖动、遮挡等)和动作扰动下都显著优于现有 offline IL / offline RL / online RL 方法,尤其是在组合扰动场景中,成功率提升更明显。(Moonlight)
一句话总结:
RobustVLA 用一套非常“克制”的正则化 + 在线 RL 后训练,让预训练 VLA 在噪声、扰动和 OOD 场景下变得更稳、更具有“工程可用性”。(arXiv) |
论文链接:
PDF:https://arxiv.org/pdf/2511.01331v2
arXiv 页面:https://arxiv.org/abs/2511.01331
本期 Talk 大概会聊些什么?
可参考的内容大纲(实际以嘉宾为准):
1.从 VLA 到 RobustVLA:问题到底出在哪?
预训练 VLA 的优势与局限
仿真 → 真实、IID → OOD 时常见的“翻车模式”
现有 RL 微调/后训练方法的优点与盲区
2.RobustVLA 的方法设计思路
为什么要做“鲁棒性分析”?
如何从理论上推导出:影响鲁棒性的核心就是“对观测的敏感度 + 对动作的平滑性”?
Jacobian 正则、Smoothness 正则分别怎么实现、怎么和 RL loss 组合?
3.实验设置 & 结果解读 (Moonlight)
使用了哪些环境、哪些扰动设定?
在哪些维度上超越了传统 RL / IL 方法?
哪些现象是“违背直觉但很有启发”的?
4.对一线研发有什么实操启发?
如果你已经有一个 VLA / VLM policy,怎样往“RobustVLA 的思路”迁移?
哪些正则、哪种噪声注入方式对真实落地最有价值?
真实机器人上做在线 RL 时必须踩过的坑(安全、采样效率、工程复杂度)
5.未来方向:VLA + RL + 真实世界鲁棒性
和其它 RL post-training 工作(如 RIPT-VLA 等)的关系 (Moonlight)
测试集/benchmark 之外,我们该如何重新定义“成功率”“鲁棒性”“可靠性”?
谁适合来听?
正在做 / 准备做 VLA 模型(OpenVLA, RT 系列, π0, 自研 VLA 等) 的同学
在真实机器人上折腾过“仿真很强,一上真机就寄”的研发 & 学生
想把 RL 从“论文”变成“后训练工具” 的研究者 & 工程师
正在关注“具身大模型 + RL + 工程落地”的学生、求职者、团队负责人
你能带走什么?
一套面向鲁棒性的 VLA + RL 后训练的思维框架
对“雅可比正则 + 平滑正则”这种设计背后的直觉和理论理解
对如何从 benchmark 走向真实世界更清晰的路径感
如果你正在做自己的 VLA / 机器人项目,可以直接对标思考:
我们的系统,能不能也加一点“RobustVLA 风格”的鲁棒性约束? |
活动信息 & 参与方式
活动名称:Xbotics Talk 第七期
主题:RobustVLA:鲁棒性优先的 VLA 强化学习后训练
嘉宾:张洪银(西湖大学博士四年级)
时间:12 月 9 日(周二)晚 19:30
最后留一个小小“预习任务”👇
打开 RobustVLA 论文,把 abstract + introduction 读一遍,想一想: 如果是你来设计“让 VLA 更鲁棒”的 RL 后训练,你会往 loss 里加什么? |
带着自己的想法来听第七期 Xbotics Talk,和 RobustVLA 的设计做个对比,收获会大很多🌟

