智元首发SOP系统：打破离线训练瓶颈，让具身智能在“干中学”- 大数跨境

首页

智元首发SOP系统：打破离线训练瓶颈，让具身智能在“干中学”

量子位

2026-01-08

导读：学习范式从静态离线训练升级为部署学习的整套数据闭环系统

智元机器人投稿
量子位 | 公众号 QbitAI

当通用能力主要通过大规模预训练获得之后，下一阶段的关键在于让已经具备通用能力的模型，在真实部署环境中持续进化。

这是智元机器人首席科学家罗剑岚博士在接受量子位采访时提出的观点。

2025年最热门的视觉-语言-动作（VLA）模型已赋予机器人较强的通用性，但其在真实场景中能否长期、稳定、高效完成任务，仍是关键挑战。

当机器人走出实验室，进入开放、复杂且动态演进的真实世界，一个更本质的问题浮现：如何实现通用机器人的规模化部署与智能化运行？

为此，智元机器人具身研究中心提出SOP（Scalable Online Post-training）——一套面向真实世界部署的在线后训练系统。

这是业界首次在物理世界VLA后训练中，系统性融合在线学习、分布式架构与多任务通才性，使机器人集群能在真实环境中持续进化，实现个体经验在群体中的高效复用，将“规模”真正转化为“智能”。

真实世界中的规模化智能增长挑战

要在真实世界中大规模运行，通用机器人需同时满足两个看似矛盾的要求：

在复杂多变环境中保持稳定性与可靠性；
在处理差异巨大的任务时，仍具备良好的泛化能力。

当前VLA预训练模型虽已提供强大通用性，但真实部署面临更高任务专精度要求，且离线数据采集边际效益持续递减，往往需依赖后训练提升任务成功率。

而主流VLA后训练方法仍受限于离线、单机、串行采集等范式，难以支撑高效、可持续的真实世界学习。这些瓶颈并非源于具体算法，而是根植于学习范式本身。

SOP：分布式在线后训练框架

SOP的核心目标是让机器人在真实世界中实现分布式、持续的在线学习。研究将VLA后训练从“离线、单机、顺序”重构为“在线、集群、并行”，构建低延迟闭环系统：多机器人并行执行 → 云端集中在线更新 → 模型参数即时回流。

SOP架构设计

△ SOP架构设计图

SOP采用Actor–Learner异步架构：

Actor（机器人侧）并行经验采集
多台部署同一policy模型的机器人（actors）在不同地点同步执行多样化任务，持续采集成功、失败及人类接管产生的交互数据，并汇总至云端Experience Buffer。

Learner（云端）在线学习
所有交互轨迹实时上传至云端learner，形成融合在线数据与离线专家示教的数据池。系统通过动态重采样策略，依据各任务性能表现自适应调节在线/离线数据比例，提升真实世界经验利用效率。

即时参数同步
更新后的模型参数在分钟级内同步至全部机器人，保障集群一致进化与在线训练稳定性。

SOP为通用框架，可即插即用地集成任意后训练算法。研究以HG-DAgger（交互式模仿学习）与RECAP（离线强化学习）为代表，将其演化为分布式在线训练方案。

关键优势

高效状态空间探索：多机器人并行采集显著提升状态–动作覆盖率，突破单机在线学习局限；
缓解分布偏移：所有机器人始终基于最新策略推理与采集，增强训练稳定性与一致性；
兼顾性能与泛化：避免单机在线训练易导致的模型退化，SOP通过空间并行而非时间串行，在提升任务性能的同时保留VLA通用能力。

实验评估：性能、效率与Scaling Law

研究围绕三大问题系统评估SOP效果：

SOP能为预训练VLA带来多大性能提升？

在各类测试场景下，接入SOP的后训练方法均实现显著性能跃升：

在物品繁杂的商超场景中，SOP+HG-DAgger综合性能较基线提升33%；
在叠衣服与纸盒装配等灵巧操作任务中，SOP不仅提升成功率，更通过在线错误恢复学习大幅提高操作吞吐量——叠衣服吞吐量提升114%；
多任务通才性能全面增强：各任务成功率均达94%以上，纸盒装配高达98%。

△ SOP性能提升

为验证真机部署鲁棒性，研究对SOP训练后的VLA模型开展长达36小时连续操作测试，模型展现出极强稳定性与容错能力，可有效应对真实场景各类异常。

36小时连续叠纸盒（50倍速）

36小时连续叠衣服（50倍速）

机器人规模如何影响学习效率？

在总数据量相同前提下，对比单机、双机、四机配置：四机配置3小时训练最终成功率92.5%，较单机高12%；多机采集有效抑制模型过拟合至单一机器人特征。

硬件扩展亦直接转化为学习加速：四机器人集群相较单机，达成目标性能所需训练时间缩短至约42%（提速2.4倍）。

△ SOP学习效率提升

不同预训练规模下SOP是否稳定有效？

研究将160小时多任务预训练数据划分为20h/80h/160h三组，分别初始化模型后再接入SOP。结果表明：

SOP对所有初始模型均带来稳定提升，最终性能与预训练质量正相关；
三小时在轨经验即可带来约30%性能提升，而80小时额外专家数据仅提升4%，印证SOP在预训练边际效应递减阶段的突破能力。

△ SOP在不同预训练数据规模下的对比

部署即进化：重塑机器人生命周期

研究将机器人投入预训练未覆盖的新环境执行任务，并启动SOP在线训练。结果表明：初期性能下降后，仅数小时SOP介入即推动成功率与吞吐量快速回升，机器人可鲁棒完成复杂实际任务。

SOP不仅革新训练范式，更重新定义机器人系统的生命周期——机器人不应是“性能固定的标品”，而应是“在真实世界中持续成长的生命体”。部署不是技术迭代终点，而是更大规模学习的起点。

如果说VLA赋予机器人通用理解与行动能力，那么SOP让海量机器人的协同经验成为智能快速进化的燃料：训练不被锁死于过去，智能成长于当下。

【声明】内容源于网络

量子位

各类跨境出海行业相关资讯

内容 14593

粉丝 0

量子位各类跨境出海行业相关资讯

总阅读105.9k

粉丝0

内容14.6k