

GRASPVLA合成数据生成流程

Xbotics具身智能实验室

2025-08-11

导读：详细介绍合成数据生成流程的核心组成部分：场景布局生成、抓取轨迹生成和图像渲染

要训练一个具有良好泛化能力的基础模型，必须依赖于一个大规模数据集，涵盖多样的物体和环境条件。与成本高昂、效率低下且范围有限的现实世界人工数据采集方式相比，我们提出完全基于合成数据进行训练的方法——该方式能在更短时间内、以更低代价提供更大的数据多样性。

我们下面将详细介绍合成数据生成流程的核心组成部分：场景布局生成、抓取轨迹生成和图像渲染。

物体资产与场景布局生成

我们使用 Objaverse 数据集中的 LVIS 子集，并经过精心筛选，剔除不合适的类别（如武器类），最终保留 240 个类别、10,680 个实例。我们将这些物体进行随机缩放，并以不同姿态“投放”到桌面上，生成多样且物理合理的场景布局。更多细节可参考补充材料。

抓取合成与轨迹生成

在获得初始布局后，我们使用一个先进的模块化系统，构建专家策略，用于生成高质量的抓取与提起轨迹。对于每一个物体实例，我们使用抓取合成算法生成稳定的对向抓取点（antipodal grasps）。然后利用运动规划算法 CuRobo 规划无碰撞的路径，以到达开环抓取姿态并将物体提起。我们在 MuJoCo 物理引擎中对所有候选轨迹进行验证，以确保能够成功提起物体。

视觉随机化与图像渲染

基于多样化的场景布局和相应的轨迹，我们使用 Isaac Sim 渲染高质量 RGB 图像，并引入光照、背景和相机设置的随机化。Isaac Sim 支持高效的光线追踪渲染，使图像逼真。我们使用多种光源（点光源、方向光、穹顶光等），并对其参数进行大量随机化。图像从两个不同的视角渲染，以提供对场景的全面观察，并围绕预设中心进行相机外参的随机偏移。更多细节见补充材料。

数据生成流程的两项重要优化

1. 高效的数据生成策略

我们设计了三项关键机制提升效率：

高质量网格模型通常体积大，加载缓慢且占用内存高。我们通过缓存机制避免重复加载，同时保证数据多样性；
实现了异步数据写入机制，图像和标签可并行保存，从而提升整体生成效率；
支持物理仿真和图像渲染并行处理，进一步提升数据生成速度。具体细节见补充材料。

2. 为模仿学习优化的数据特性

为降低模仿学习的难度，我们引入两项改进：

传统开环抓取方法通常采用两步（先对准抓取位置，再执行抓取）来避免碰撞，但这种分段方式会导致动作“停顿”，训练出的模仿策略容易出现“犹豫不决”的现象。我们改为一步式运动规划，优先考虑轨迹平滑性而非成功率，从而提升模仿策略的流畅性；
我们还引入机器人初始姿态的随机化，以增强专家演示中对工作空间的探索能力和观察多样性，从而提升模型鲁棒性。

SynGrasp-1B 数据集生成

基于上述流程，我们使用 160 块 NVIDIA 4090 显卡，持续 10 天，生成了总量达 10 亿帧（1B）的合成抓取数据集 SynGrasp-1B。

【声明】内容源于网络

Xbotics具身智能实验室

学习机器人与具身智能技术：1、国内独家机器人具身智能社群圈子人脉。2、Xbotics具身智能社区知识库 https://yv6uc1awtjc.feishu.cn/wiki/WPTzw9ON0ivIVrkLjVocNZh8nLf。

内容 353

粉丝 0

Xbotics具身智能实验室学习机器人与具身智能技术：1、国内独家机器人具身智能社群圈子人脉。2、Xbotics具身智能社区知识库 https://yv6uc1awtjc.feishu.cn/wiki/WPTzw9ON0ivIVrkLjVocNZh8nLf。

总阅读308

粉丝0

内容353