大数跨境
0
0

TrajBooster:轨迹为中心的学习促进人形机器人全身操控

TrajBooster:轨迹为中心的学习促进人形机器人全身操控 极市平台
2025-09-26
2
↑ 点击蓝字 关注极市平台
作者丨黄浴@知乎
来源丨https://zhuanlan.zhihu.com/p/1953137694654858886
编辑丨极市平台

极市导读

 

TrajBooster把轮式人形机器人的6D臂轨迹跨身重定向到双足Unitree G1,再用「协调在线DAgger」训练全身控制器,仅需10分钟真机数据即可完成后训练;实测176个任务、1960段模拟流,VLA成功率显著提升,让双足机器人也能下蹲、跨高作业,摆脱对昂贵同构数据的依赖。>>加入极市CV技术交流群,走在计算机视觉的最前沿

25年9月来自浙大、西湖大学、上海交大和上海创新研究院的论文“TrajBooster: Boosting Humanoid Whole-Body Manipulation via Trajectory-Centric Learning”。

近期的视觉-语言-动作 (VLA) 模型展现出跨具身泛化的潜力,但在高质量演示稀缺的情况下,难以快速与新机器人的动作空间匹配,尤其是对于双足类人机器人而言。 TrajBooster,这是一个跨具身框架,利用丰富的轮式类人机器人数据来提升双足 VLA 的性能。核心理念是将末端执行器轨迹用作与形态无关的接口。

TrajBooster (i) 从现实世界的轮式人形机器人中提取 6D 双臂末端执行器轨迹;(ii) 在模拟中将它们重定位到 Unitree G1,并使用通过启发式增强型协调在线 DAgger 训练的全身控制器,将低维轨迹参考提升为可行的高维全身动作;(iii) 形成异构三元组,将源视觉/语言与目标人形机器人兼容的动作耦合,对 VLA 进行预训练,之后仅需 10 分钟即可在目标人形机器人领域进行远程操作数据收集。策略部署在 Unitree G1 上,实现超越桌面的家务任务,支持下蹲、跨高度操作和协调的全身运动,并显著提高鲁棒性和泛化能力。

结果表明,TrajBooster 允许现有的轮式人形机器人数据有效地增强双足人形机器人 VLA 性能,减少对昂贵的相同具身数据的依赖,同时增强动作空间理解和零样本技能迁移能力。

近期进展显著推动人形机器人操控技术的发展。在此基础上,视觉-语言-动作 (VLA) 模型使人形机器人能够自主执行各种家务,并提高可靠性和泛化能力。

其中,轮式人形机器人尤其擅长执行需要协调全身运动的家务,例如下蹲和跨越不同高度的伸展动作,这凸显实际家居环境中对机器人实际伸展性和灵活性的要求。Agibot-World Beta 数据集的证据表明,末端执行器的运动轨迹集中在 0.2 至 1.2 米之间(如图所示),这凸显日常家务需要在广阔的工作空间内进行灵活操控,而不仅仅是在桌面上。相比之下,双足人形机器人必须用上半身进行操控,同时保持下半身的动态平衡,这使得这种大范围的全身操控尤其具有挑战性。

与此同时,先前的 VLA 研究主要集中在复杂环境中的运动或桌面操控,这留下了一个关键的空白:如何实现双足类人机器人的大范围全身操控。

实现这一目标需要大规模的演示,而数据收集仍然是瓶颈。现有的远程操作流程需要昂贵的基础设施和专业的操作员,并且通常产生的数据集规模较小,并且在不同场景和任务中的多样性有限。因此,VLA 在训练后阶段难以与新的类人机器人平台的动作空间保持一致。虽然在异构机器人语料库上进行预训练有所裨益,但它无法取代高质量、与类人机器人相关的、具有足够覆盖范围的全身演示。因此,当前的系统仍然不足以实现大范围操控。

01 类人机器人全身控制

近年来,现实世界中类人机器人全身控制的研究取得了长足的进步,许多研究主要通过基于远程操作的方法推动了该领域的发展。Humanoid-VLA和 Leverb等许多研究探索了利用 VLA 模型生成全身运动的自主策略。然而,这些研究主要集中在粗粒度控制上,例如坐下、挥手或行走。

相比之下,类人机器人操作任务的研究探索了通过视觉运动策略或 VLA 模型生成动作,但这些研究大多局限于桌面场景。这种场景没有充分利用类人机器人下肢的运动能力,从而限制了机器人的操作空间。虽然 Homie通过其视觉运动控制策略在解决这一限制方面取得了显著进展,但其实际应用仍然受限于需要为每个任务训练单独的策略,从而限制了其在不同任务场景中的可扩展性。

02 跨具身学习

跨具身学习旨在在形态各异的智能体之间迁移知识。一些方法使用修复、分割或基于物理的渲染来缓解感知差异,有效地对齐观察结果,但仍然局限于感知层面。除了感知之外,研究人员还探索了具身不变的动作抽象。潜在动作表征提供粗粒度的隐式编码,而基于轨迹的方法则将操作技巧提取为显式形式。例如,DexMV 将人类的 3D 手势映射到机器人的轨迹。这些方法虽然有效,但主要解决灵巧的手部与物体的交互,无法扩展到全身运动迁移。近期的研究可以生成全身动作;然而,其适用性受到四足机器人工作空间配置的限制。

本文利用 TrajBooster 解决提出的那些问题。这是一个跨具身框架(如图所示),它利用末端执行器轨迹与形态无关的特性,将演示从轮式机器人迁移到双足人形机器人,从而缓解双足 VLA 微调中的数据稀缺问题,从而提升 VLA 动作空间理解能力和任务泛化能力,以便在目标双足人形机器人上进行全身操控。

关键洞察在于,尽管形态上存在差异,但末端执行器轨迹提供一个共享接口,可以弥合具身之间的关节空间差距。利用来自轮式人形机器人 Agibot G1 的大规模数据,通过“真实-模拟-真实”的流程,间接增强双足机器人 Unitree G1 的 VLA 训练。

03 真实轨迹提取

用 Agibot-World 测试数据集中的操作数据作为真实机器人数据源。该数据集包含超过一百万条真实机器人轨迹,涵盖多视角视觉信息、语言指令和 6D 末端执行器姿态。然而,由于 Agibot 和 Unitree G1 之间的工作空间差异,直接基于末端执行器位置和方向轨迹进行重定向并不合适。例如,Agibot 的臂展在完全伸展时可达 1.8 米,而 Unitree G1 的臂展仅为 1.2 米。

为了解决这个问题,将 Agibot 数据集的轨迹映射到 Unitree 官方 G1 操作数据集 ,后者包含 7 个桌面级任务的 2,093 个场景。具体来说,通过基于后者应用 z-分数归一化,将 Agibot 数据的 x 轴与 G1 对齐,使用与手臂长度成比例的缩放因子 β = 0.6667 重新缩放 y 轴,并将 z 轴裁剪至 [0.15,1.25] 范围内,并设置安全边界。

04 仿真中的重定向

4.1 模型架构

鉴于 Agibot-World 数据集包含大量家务任务,其 z 坐标主要分布在 0.2 至 1.2 米之间,成功的全身操控需要协调的下肢运动(例如下蹲)。为了解决这个问题,提出一个用于全身操控重定向的复合分层模型(如图所示)。具体而言:

手臂策略 (P_IK) :通过 Pinocchio使用闭环逆运动学 (CLIK) 计算目标关节角度。

工作者策略 (P_worker) :一种目标条件强化学习策略,遵循 [17] 进行训练,使用上肢运动课程,以增强抗干扰鲁棒性。它输出 12-自由度下肢的目标关节位置。

管理者策略(P_manager):根据手腕姿势生成下半身命令。

复合层次模型 H 集成以下组件:

(a^leg^_t, a^arm^_t) = H(T_BE) = P_worker (P_manager (T_BE)), P_IK(T_BE))。

该模型以末端执行器相对于机器人基座的位姿 T_BE 作为输入,输出由 PD 控制器执行的 Unitree G1 关节指令。

4.2 分层模型训练

分层模型训练包含两个阶段:P_worker 训练,以及通过启发式在线学习进行 P_manager 训练(如下算法 1)。

P_manager 训练的关键步骤如下:

  • 种子轨迹收集:在 MuJoCo 中,初始化 Unitree G1 站立模型,重放包含 2,093 个 episode 的上肢运动数据集,并记录生成的轨迹。
  • 轨迹增强:对种子轨迹应用 PCHIP(分段三次 Hermite 插值多项式)插值,生成高度变化 ∈ [0.15m,1.25m],从而实现不同高度的全身操控。
  • 启发式目标指令 (a^∗^ ) 生成:启发式真实高度目标 h^∗^ 由种子轨迹的 PCHIP 插值高度得出。启发式速度指令 (v^∗^_x , v^∗^_y , v^∗^_yaw ) 是根据人形机器人在 Isaac Gym 中相对于其初始位置的基准位移计算得出的,假设规划范围为 1 秒。
  • 协调在线 DAgger:为简便起见,P_manager 和状态 s_t(代表 T_BE)分别表示为 P_m 和 s_t。在每次迭代中,P_m 在 Isaac Gym 中的 N 个并行环境中执行 T 步展开(T = 50)。最小化损失记为 L_rollout。

为了缓解持续学习中的灾难性遗忘,实现一种协调的数据集聚合 (DAgger) 策略。与每次迭代都聚合数据的标准 DAgger 不同,对聚合过程进行子采样,来平衡数据效率和计算效率——具体来说,每 M = 10 次迭代仅合并一次新的演示。随后,最小化聚合数据集损失 L_DA。

至关重要的是,该流程利用实际部署中无法获得的特权信息。具体而言,在模拟中,可以访问与当前目标 6D 操作轨迹相对应的躯干高度,以及人形机器人相对于相应身体位置的基准位移。这些特权信息使得启发式目标命令 a^∗^ 能够高效生成,从而促进 P_manager 的有效训练。

4.3 使用重定向数据进行后预训练

后预训练 (PPT) 是预训练和后训练之间的中间阶段,是大语言模型 (LLM)和视觉-语言模型 (VLM)中广泛采用的技术。同样,对于 VLA,预计该方法也将增强模型对下游任务的快速适应能力,并增强对动作空间的适应和理解能力,如图所示。

在本研究中,将重定向动作数据与来自原始 Agibot-World 数据集的语言指令和视觉观察相结合,构建多模态数据三元组。这些三元组用于对预训练的 GR00T N1.5 模型进行后预训练。

后预训练阶段采用的目标函数与中描述的后训练阶段相同。给定一个真实动作块 A_t 和采样噪声 ε,构建一个带噪声动作块:A^τ^_t = τ A_t + (1 − τ )ε,其中 τ ∈ [0,1] 表示流匹配时间步长。模型 V_θ (φ_t , A^τ^_t , q_t ) 通过最小化流匹配损失 L_fm(θ) 来预测去噪矢量场 ε − A_t。

在推理过程中,用 4 个去噪步骤生成跨越 16 个时间步长、频率为 20Hz 的动作块。每个块包含手臂和手的关节位置命令,以及用于 P_worker 模块的下半身控制命令 (v_x, v_y, v_yaw, h),从而使 VLA 模型能够实现对人形机器人的全身控制。

4.4 后训练

远程操作数据收集。采用与 P_worker 相同的训练方法来生成下半身运动。然而,与分层模型 H 不同,P_worker 的控制命令来自人类操作员通过遥控器操纵杆发出。对于上半身运动(包括手臂和手部运动),采用基于 Apple Vision Pro 的远程操作框架来实现运动学映射。用两个腕部 RGB 摄像头(左、右)和一个头部 RGB 摄像头收集视觉数据。

在目标人形机器人上微调 VLA。收集到的远程操作数据用于对预训练后的 VLA 模型进行后训练,方法是最小化前面提到的流匹配损失 L_fm(θ)。

05 重定向模型评估

基线。使用 Harmonized Online DAgger 训练分层模型。为了验证该方法在追踪模型训练中的有效性和效率,与几个基线进行比较:基于奖励的 PPO、标准 DAgger、在线学习(M = 1,不使用 DAgger)、标准在线 DAgger(M = 1,使用 DAgger)。

实施细节。所有实验均采用 512 个并行环境,进行 200 次训练迭代,但 PPO 除外,它使用 800 次迭代来解释其附加的值模型训练。训练和推理均在配备 Intel Core i9-14900K CPU 的单块 RTX 4090 GPU 上进行。

06 使用后预训练在 VLA 上进行评估

数据集。对于 Agibot-World 测试版数据集中的每个任务,随机抽取 10 个 episodes。涉及灵巧手和平行夹持器的任务则进行单独抽样,每种末端执行器类型选择 10 个 episodes。对于 episodes 少于 10 个的任务,所有有效 episodes 均纳入其中,而出现帧错误的 episodes 则被系统地排除。此过程产生一个包含 176 个不同任务和 1960 个 episodes 的数据集,相当于大约 35 小时的模拟交互。然后对这些数据进行预处理。利用 Isaac Gym 的环境并行性,在几十分钟内对所有 episodes 进行分层身体运动重定向。基于这些重定位的身体运动,实现末端执行器映射:Agibot-World 使用夹爪(85% 的轨迹)和手(15%),因此将拇指/食指的张开映射到夹爪空间;对于目标末端执行器 Unitree Dex-3(7 自由度手),预收集的开/闭关节位置作为重定位目标。重定位的 Unitree G1 运动取代了原始的执行器命令,生成多模态(动作、语言、视觉)数据三元组。对于后续的后训练,使用 Unitree G1 人形机器人在四种不同的高度配置下收集 28 个真实世界的全身操作数据,如图所示。该数据集包含大约 10 分钟的操作时间。

基线。建立无需进行后预训练的 VLA 作为基线:在预训练的 GR00T N1.5 上直接对模型进行 3K 和 10K 步后训练。将这些结果与训练后 3K 步的 VLA 后预训练结果进行比较。

实施细节。预训练后在双 A100 80GB GPU 上使用重定位的动作-视觉-语言三元组(批次大小=128,60K 步);训练后在单个 A100 GPU 上使用真实世界的全身操控数据(批次大小=16,3K 步)。同时,从 GR00T N1.5 检查点(仅使用真实世界数据)训练两个控制模型:一个 3K 步变型和一个 10K 步变型,均在单个 A100 GPU 上训练,批次大小为 16。


公众号后台回复“数据集”获取100+深度学习各方向资源整理

极市干货

技术专栏:多模态大模型超详细解读专栏搞懂Tranformer系列大视觉模型 (LVM) 解读扩散模型系列极市直播
技术综述:小目标检测那点事大模型面试八股含答案万字长文!人体姿态估计(HPE)入门教程

点击阅读原文进入CV社区

收获更多技术干货


【声明】内容源于网络
0
0
极市平台
为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
内容 8155
粉丝 0
极市平台 为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
总阅读197
粉丝0
内容8.2k