在实际操作中,传统的机器人任务与运动规划(TAMP)系统大多基于静态模型运行,因此在面对新环境时往往表现不佳。应对这一挑战的有效途径是将感知与操作相融合,这样机器人便可在执行任务的过程中实时更新计划,更好地适应动态场景。
本期 NVIDIA 机器人研究与开发摘要(R²D²)将探讨:基于感知的 TAMP 与 GPU 加速的 TAMP 如何实现多步骤精细操作。此外还将介绍提升机器人操作能力的相关框架,以及如何融合视觉与语言信息,把像素转化为子目标、任务负载以及可微分约束条件。
TAMP 将视觉与语言信息转化为机器人的具体动作:如今,机器人可融合视觉与语言信息(如图像和指令),将复杂任务拆解为若干小步骤,为机器人明确待执行动作、交互对象以及安全移动的策略。这一过程的实现,主要依托以下三种先进模型:
OWL-TAMP:混合式工作流,通过融合视觉语言模型(VLM)与 TAMP,使机器人能够执行自然语言指令下达的多步骤精细操作任务。
VLM-TAMP:适用于复杂视觉环境的多步骤任务规划工作流。通过融合 VLM 与传统 TAMP 框架,它能够在现实场景中生成并优化行动计划。
NOD-TAMP:通过运用神经对象描述符(NOD)来提升对各类对象的泛化能力。该方法使机器人能与新对象高效交互,也支持规划器开展动态操作调整。
cuTAMP 利用 GPU 并行化加速机器人规划:针对 cuTAMP 设定的任务骨架,系统会采样数千个初始解(粒子),再通过 GPU 执行可微分的批量优化,满足逆运动学、避障、稳定性以及目标函数成本等多种约束。这种“矢量化满意度”,正是在实际应用中解决多步骤精细操作问题的核心关键。
机器人利用 Stein 变分推断从故障中学习:Fail2Progress 能够让机器人从自身故障中学习,进而提升操作能力。同时,它借助 Stein 变分推断,生成与故障相似的定向合成数据集。这些数据集可用于微调或重新部署 skill-effect 模型,从而减少在多步骤精细操作任务中重复发生相同故障。
以上为摘要内容,点击“阅读原文”或扫描下方二维码阅读完整内容:

