RoboDexVLM：基于VLM的任务规划和运动控制，实现灵巧机器人- 大数跨境

AirkingRobots艾科伯特科技

2025-03-28

导读：RoboDexVLM：基于VLM的任务规划和运动控制，实现灵巧机器人

Airking Robots

www.airkingrobots.com

来自香港科技大学广州的论文“RoboDexVLM: Visual Language Model-Enabled Task Planning and Motion Control for Dexterous Robot Manipulation”。

探索RoboDexVLM，这是一个革命性的机器人任务规划和抓取检测框架，专为配备灵巧手和协作机械臂而设计。传统的解决方案往往只关注简化的操作任务，未能充分应对远距离抓取多样化目标的挑战。RoboDexVLM打破了这一局限，它能够利用灵巧手在执行基于自然语言命令的任务时，精准抓取不同形状和大小的目标。这一创新框架的核心在于两个关键组件：首先，它集成了一个先进的任务规划器，该规划器配备了视觉-语言模型（VLM），能够处理长序列任务的开放词汇命令；其次，它提出了一种基于机器人运动学和形式化方法的语言引导灵巧抓取感知算法，专为零样本灵巧操作而定制，适用于各种目标和命令。

RoboDexVLM如图所示：

探索RoboDexVLM框架，它巧妙地连接了高级任务规划与低级执行，通过一个精心构建的结构化技能库。这个核心库是实现零样本操作的关键，赋予机器人仅凭自然语言指令就能执行未预编程任务的能力，例如打开盒子并巧妙地将较大的杨桃放入其中。技能库S由一系列原子技能组成，这些技能封装了检测、抓取、移动和放置物体等基本操作。每个技能单元F_i都配备了必要的输入I_i，以激活特定的动作。这八个原子技能不仅独立运作，而且在整体框架中紧密协作，确保任务的流畅过渡和高效完成。

VLM，凭借其卓越的世界知识和推理能力，通过一系列精心设计的提示，推理生成技能顺序及其所需的函数输入。具体来说，它遵循以下公式：{R_τ, O_τ, I_τ} = T(K(S, M_τ, L_τ))。在这个过程中，上下文生成器K(·)接收三类输入：常量系统消息S、记忆消息M_τ以及任务描述人类消息L_τ。这些输入经过思维链（CoT）推理模板的处理后，由函数T代表VLM的推理过程进一步加工。VLM的输出分为三个部分：CoT推理文本R_τ、技能原始顺序O_τ以及技能的相应输入原语I。R_τ增强了VLM设计的技能顺序的透明度，对于小样本学习的记忆反思具有重要意义。RoboDexVLM框架的一个关键特性是其为每个技能设计的标准化输入-输出接口F_i(X_i)。这些接口促进了不同阶段之间的无缝交互，使VLM能够根据语言命令L_τ的具体要求动态地将它们链接在一起。为了实现目标抓取，动态变量存储D包含必要的几何值G和最大接触力F_max。机器人运动的几何矢量表示为A = {d, θ, r}。技能函数F_i可以查询变量存储D以检索更新的数据进行实时操作，确保了系统的灵活性和响应性。

结合技能的基本顺序 O_τ ，机器人系统按顺序执行灵巧的操作，同时更新变量存储 D ，直到完成初始语言指令 L 中的长视界任务。

感知-动作范式

RoboDexVLM框架以其感知-动作范式而著称，致力于通过闭环执行系统实现精确且鲁棒的操作。这一流程融合了多种尖端技术，构建了一个能够灵活调用不同任务技能的系统。RoboDexVLM的核心在于其连贯的感知-动作循环：首先，通过结合语言引导的图像分割模块和实时视觉输入，生成语义级目标掩码。这一过程借鉴了[4]中的灵感，采用两个互补模型来实现语义掩码的生成。Grounding DINO[2]作为开放集目标检测器，将语言嵌入E_lang与视觉特征对齐，实现零样本文本到边框检测。SAM[29]则进一步将这些边框细化为像素级的精确掩码，确保在复杂场景中也能进行实例感知分割。随后，系统利用这些分段掩码与深度信息对齐的视觉输入来过滤目标物体，并借助AnyGrasp[20]推断出机器人末端执行器的最佳抓取姿势。通过几何-几何对齐和余弦相似度计算，系统评估每个候选抓握姿势的几何一致性，并选择出在局部几何约束下最大化空间一致性的姿势。此外，该系统还能够生成目标放置的姿势和孤立动作A的最终姿势。在动作执行方面，RoboDexVLM利用Denavit-Hartenberg运动学计算机械臂的轨迹，并优化插值航点以保持末端执行器方向约束。这确保了在实时感知的每个步骤之后，整个任务中的运动都能保持平稳稳定。通过闭环方式调整操作目标以适应动态场景中的任务需求，RoboDexVLM展现了其卓越的任务适应性和稳定性。

灵巧操作姿势生成

平行夹持器的抓握感知技术在简化抓握合成方面取得了突破性进展，为灵巧操作提供了强大的基础先验。这一创新通过运动重定向，将平行夹持器的抓握方案无缝迁移至灵巧手，充分利用现有感知框架的同时，有效应对灵巧手中的高自由度挑战。特别是在抓握形状不规则物体（如杨桃）时，这一方法显著提升了成功率。抓握方案G定义为G={t, R, w}，其中t代表笛卡尔框架中的抓握中心，R为旋转矩阵，w则是成功抓握所需的夹持器宽度。当达到目标姿势后，灵巧手的力传感模块会引导所有手指同步闭合，直至施加的力达到预设的最大阈值F_max。为了在灵巧抓握中应用G，需要确定从法兰框架E到对应灵巧手框架H的标定矩阵。通过手动调整灵巧手的姿势并微调至与3D点云中显示的两指夹持器姿势相匹配的拇指和中指位置，可以计算出标定矩阵。下图展示了所有相关帧，以便直观理解灵巧抓握姿势生成的全过程。

为了确保对执行错误的稳健性，RoboDexVLM 采用双层恢复机制。每次技能执行后，都会使用基于深度的变化检测和灵巧手所有手指的位置反馈来验证是否成功。如果失败，例如抓握失败，系统会构建一个反思提示

H_reflect =[E_error, τ, P_RGB, τ+1, O_history], (7)

包含有关检测的错误 E_error、当前场景状态 P_RGB 和之前技能尝试历史 O_history 的详细信息。VLM 使用

{R_τ+1, O_τ+1, I_τ+1} = T (K (H_reflect)), (8)

在面对物体抓握失败时，我们的系统将巧妙地介入，通过引入HandRot基元来调整物体的方位，确保更稳固的抓握效果。为避免陷入无休止的循环，系统会从最近一次成功的技能执行点恢复，并严格限制每个任务的恢复尝试次数至三次，以确保效率和稳定性。

在为机器人操作任务量身定制的真实环境中，我们精心设计了一系列实验。这些实验的核心是一台配备 Inspire 五指灵巧手的 UR5 机械臂，搭配英特尔 RealSense D435i RGB-D 摄像头进行目标检测和场景分析。工作空间内摆放着各式目标物，它们形状各异、大小不一、质地多样，旨在全面测试 RoboDexVLM 框架的多功能性。我们选择了 GPT-4o [30] 作为灵巧机器人操作的基础模型，并确保系统能在各种桌面布局下稳定运行。为了满足实时处理的需求，所有计算和模型预测都在一台搭载 RTX 3080Ti GPU 和 12GB 图形内存的工作站上进行。