

GenDexHand：灵巧手的生成式模拟方法

大语言模型和具身智体及自动驾驶

2025-11-16

导读：25年11 月来自香港大学、忆生科技(TranscEngram）、上海交大和香港中文大学的论文“GenDexHand: Generative Simulation for Dexterous Hand

25年11 月来自香港大学、忆生科技(TranscEngram）、上海交大和香港中文大学的论文“GenDexHand: Generative Simulation for Dexterous Hands”。

数据稀缺仍然是具身智能发展的根本瓶颈。现有方法利用大语言模型（LLM）自动生成基于机械臂的仿真，但其在灵巧操作方面的迁移效果不佳，因为灵巧操作需要更专业的环境设计。同时，由于灵巧操作任务具有更高的自由度，因此其本身难度也更大。大规模生成可行且可训练的灵巧手部任务仍然是一个尚未解决的难题。为此，GenDexHand，作为一个生成式仿真流程，其能够自主生成各种用于灵巧操作的机器人任务和环境。GenDexHand引入一个闭环优化过程，该过程基于视觉-语言模型（VLM）的反馈来调整物体的位置和大小，从而显著提高生成环境的平均质量。每个任务都被进一步分解为子任务，以实现序列强化学习，从而缩短训练时间并提高成功率。

生成式仿真（Wang et al., 2023; Xian et al., 2023; Chen et al., 2024; Yang et al., 2024）近年来已成为机器人领域一个极具前景的研究方向。它利用基础模型的能力，无需针对特定任务进行手工设计，即可生成仿真环境和相应的策略，从而扩展数据生成规模（Katara et al., 2023; Nasiriany et al., 2024; Authors, 2024）。由于基础模型具有强大的泛化能力，生成式仿真方法通常能够产生高度多样化的数据。例如，RoboGen（Wang et al., 2023）生成涉及机器人运动以及基于机械臂的关节和软体物体操作的数据集；GenSim（Wang et al., 2024a）生成基于吸盘操作的拾取放置数据； GenSim2（Hua，2024）通过生成基于机械臂的操作数据，并将学习到的仿真策略进一步应用于现实世界，扩展了这一思路。这些方法凸显生成式仿真在机器人领域创建合成数据的潜力。然而，它们始终忽略了灵巧手部任务的生成，而这类任务涉及更高的复杂性和自由度。

灵巧的手，由于其解剖结构，能够执行复杂的任务，并且在操作方面比机械爪或吸盘式抓取器展现出更强的泛化能力（Ma & Dollar，2011）。然而，这种潜力也伴随着巨大的挑战。为了完成复杂的任务，灵巧的手需要多个手指之间的精确协调，而实现这种协调控制长期以来被认为是区分灵巧手操作与机械爪或吸盘式操作的主要难点之一。另一个难点在于灵巧的手固有的高自由度（DoF）。可控维度的显著增加扩大强化学习和运动规划的探索空间，因此需要更精确、更细粒度的指导才能有效地学习策略。因此，对探索空间施加约束或结构对于提高学习复杂灵巧手策略的准确性和效率至关重要。

GenDexHand 是一款生成式智体，旨在完全在仿真环境中自主构建灵巧的手部操作任务。为了生成高质量且多样化的任务，流程分为三个阶段：任务提出与生成、多模态大语言模型 (MLLM) 优化以及策略生成，如图所示。在第一阶段，系统利用机器人资源和目标库来提出并生成候选任务，构建相应的仿真环境并定义任务目标。第二阶段引入 MLLM 优化，对初始生成的任务进行迭代调整，以确保语义合理性和物理一致性。在最后阶段，采用强化学习、运动规划和相关控制策略来生成能够成功完成优化后任务的机器人轨迹。

任务提议与生成

GenDexHand 首先基于其内部库中可用的资源和灵巧手模型生成一系列多样化的任务提议。在设计中，GenDexHand 使用的目标资源是从公开可用的资源库（例如 DexYCB (Chao et al., 2021)、RoboTwin (Mu et al., 2025; Chen et al., 2025) 和 Partnet-Mobility (Mo et al., 2019)）中随机抽取的。给定该资源库和指定的机械手模型，大语言模型 (LLM) 会根据可用目标提出可行的任务。然后，执行额外的验证步骤，以确认所有引用的目标都存在。例如，LLM 可能会提议“把苹果放进碗里”，这要求“苹果”和“碗”这两个目标都存在于资源库中。如果缺少任何必需的目标，LLM 必须重试，直到生成有效的任务为止。

用 Claude Sonnet 4.0 作为主要的LLM。LLM 利用从 DexYCB、RoboTwin 和 Partnet-Mobility 等数据集中随机抽取的资源（包括“笔记本电脑”、“打印机”、“橱柜”和“网球”等物体和可动物品），并运用其对潜目标交互的语义知识来提出符合实际的任务。比如“将苹果放入碗中”、“旋转网球”和“打开笔记本电脑”。这些任务具有语义意义，并提供明确的指导，每个任务都自然地与特定的上下文场景相关联。例如，“打开笔记本电脑”这样的任务更有可能发生在办公室或办公桌上，而不是浴室。最后，每个任务建议都包含详细的元素，包括任务名称、场景说明、背景图像和相关的物体资源。

任务方案验证通过后，GenDexHand 将生成相应的任务环境。在此阶段，将执行以下几个关键步骤：（i）物体尺寸调整，（ii）物体配置生成，以及（iii）场景配置生成。

物体尺寸调整。由于物体来源于大规模公共数据集，因此它们的尺寸差异很大。为了确保生成的任务在物理上合理，根据灵巧手模型调整物体的尺寸。例如，将网球的尺寸调整到灵巧手的抓握范围内，从而保持操作任务的真实性和可行性。

物体配置生成。合理的任务还要求物体放置在合适的位置并初始化为合理的状态。例如，在“将物体放入抽屉”的任务中，物体最初应位于抽屉外部，而抽屉本身应处于关闭状态。为了实现这一目标，用大语言模型生成目标配置，这些配置指定场景中目标的位置和状态。

场景配置生成。通过组合先前获得的目标配置，得到初始场景布局。然而，通过引入背景和固定结构的变化，可以进一步增强任务的多样性和真实感。在此阶段，再次利用大语言模型来组合目标配置，并添加静态目标和背景图像等其他场景元素。最终输出以完整场景配置的形式呈现。

多模态大语言模型（MLLM）优化

直接生成任务的质量往往难以始终如一地保证。为了提高任务的保真度并获得高质量的灵巧手部轨迹数据，引入一个额外的优化阶段，在该阶段中，生成的环境会在多模态大型语言模型的监督下进行调整。

一旦获得完整的场景配置文件，便会在仿真环境中实例化该文件以构建任务环境。然后，使用嵌入在仿真器中的摄像头渲染场景的多视角图像。这些渲染图像提供关键反馈，用于判断生成的任务是否与其现实世界的对应物相符，物体尺寸是否符合常识性的物理约束，以及是否存在诸如物体相互穿透或错位等问题。此外，还可以验证光照、静态结构和背景图像等因素的真实性。

在流程中，采用 Gemini 2.5 Pro（Comanici，2025）作为多模态大语言模型，负责分析渲染场景并提供修改建议。一旦发现问题，Gemini 会输出针对物体大小、位置和方向的明确调整指令。这些指令随后通过对配置文件进行简单的数学运算来实现，从而确保修改的精确性和一致性。这种设计避免依赖语言模型进行数值计算的弊端，同时保持了场景配置优化的准确性。

通过这种迭代优化流程，系统能够显著提高场景的真实感，并生成更符合物理和语义约束的灵巧手部环境。

轨迹生成

为了弥合生成的任务场景与成功的灵巧操作轨迹之间的差距，提出一种由 LLM（Claude Sonnet 4.0）协调的分层框架。

该框架使 LLM 能够作为高级任务规划器，承担三个关键职责：（i）将长时域指令分解为一系列更简单、可执行的子任务；（ii）为每个子任务选择最合适的底层控制器——运动规划（Súcan，2012）或强化学习（Schulman，2017）；以及（iii）动态管理机器人的主动自由度 (DoF) 以简化控制。

对于需要无碰撞点对点运动的子任务，例如抓取物体，采用基于采样的运动规划器。基于子任务指令，LLM 生成末端执行器的目标姿态（即手掌的位置和方向）。然后，运动规划器生成一条可行的轨迹，使机器人能够到达该目标姿态并避开环境中的障碍物。

为了处理涉及接触丰富、精细操作的子任务，采用强化学习 (RL)。为每种灵巧子任务（例如抓取、放置、扭转）训练一个专门的 RL 策略。训练在生成的仿真场景中进行，奖励函数由 LLM 自主调整以反映子任务的目标。

这种分层设计源于几个关键原则。首先，它能够应对难以用单一端到端策略解决的长时域任务挑战。通过将“拿起网球并旋转它”之类的任务分解为子任务（“接近”、“抓取”、“旋转”），LLM 允许在每个阶段采用定制策略。其次，LLM 通过基于子任务指令约束自由度 (DoF) 来动态降低控制问题的维度，使强化学习 (RL) 能够专注于特定的关节，从而提高学习效率和策略鲁棒性。最后，混合使用运动规划和强化学习，充分利用两种范式的优势。运动规划擅长生成高效稳定的运输和抓取路径，而强化学习则更擅长处理操作中固有的复杂接触动态。

通过协同结合这些策略，该框架能够有效地处理长时域灵巧操作任务。 LLM 充当高级调度器，将控制权委托给最合适的低级模块，从而显著提高获取高质量轨迹的成功率和鲁棒性。

实验采用 Sapien 作为仿真平台。任务生成方面，使用 Claude 4 Sonnet 作为基于文本的任务规范语言模型，并使用 Gemini 2.5 Pro 作为多模态大语言模型进行场景验证和优化。训练过程中，运行 1024 个并行环境，每个环境中的物体都会受到位置和方向的随机扰动。仿真频率设置为 120 Hz，控制频率设置为 20 Hz。为了确保在启用和禁用子任务分解两种设置之间进行公平比较，在禁用子任务分解的情况下，将训练周期长度固定为 400 步（20 秒）。启用子任务分解后，每个子任务的训练周期限制为 200 步（10 秒），从而使两种设置下的整体训练周期长度相当。训练总共进行 250 个周期。

如图是一些生成的多样化任务场景例子：

【声明】内容源于网络

大语言模型和具身智体及自动驾驶

讨论大模型（包括语言大模型、视觉-语言大模型和多模态大语言模型）、具身智能、AI智体、自动驾驶和计算机视觉的技术发展和挑战

内容 1850

粉丝 0

大语言模型和具身智体及自动驾驶讨论大模型（包括语言大模型、视觉-语言大模型和多模态大语言模型）、具身智能、AI智体、自动驾驶和计算机视觉的技术发展和挑战

总阅读1.5k

粉丝0

内容1.9k