大数跨境
0
0

GRASPVLA合成数据生成流程

GRASPVLA合成数据生成流程 Xbotics具身智能实验室
2025-08-11
0
导读:详细介绍合成数据生成流程的核心组成部分:场景布局生成、抓取轨迹生成和图像渲染

要训练一个具有良好泛化能力的基础模型,必须依赖于一个大规模数据集,涵盖多样的物体和环境条件。与成本高昂、效率低下且范围有限的现实世界人工数据采集方式相比,我们提出完全基于合成数据进行训练的方法——该方式能在更短时间内、以更低代价提供更大的数据多样性。

我们下面将详细介绍合成数据生成流程的核心组成部分:场景布局生成、抓取轨迹生成和图像渲染。


物体资产与场景布局生成



我们使用 Objaverse 数据集中的 LVIS 子集 ,并经过精心筛选,剔除不合适的类别(如武器类),最终保留 240 个类别、10,680 个实例。我们将这些物体进行随机缩放,并以不同姿态“投放”到桌面上,生成多样且物理合理的场景布局。更多细节可参考补充材料。


抓取合成与轨迹生成



在获得初始布局后,我们使用一个先进的模块化系统,构建专家策略,用于生成高质量的抓取与提起轨迹。对于每一个物体实例,我们使用抓取合成算法 生成稳定的对向抓取点(antipodal grasps)。然后利用运动规划算法 CuRobo 规划无碰撞的路径,以到达开环抓取姿态并将物体提起。我们在 MuJoCo 物理引擎 中对所有候选轨迹进行验证,以确保能够成功提起物体。


视觉随机化与图像渲染



基于多样化的场景布局和相应的轨迹,我们使用 Isaac Sim 渲染高质量 RGB 图像,并引入光照、背景和相机设置的随机化。Isaac Sim 支持高效的光线追踪渲染,使图像逼真。我们使用多种光源(点光源、方向光、穹顶光等),并对其参数进行大量随机化。图像从两个不同的视角渲染,以提供对场景的全面观察,并围绕预设中心进行相机外参的随机偏移。更多细节见补充材料。


数据生成流程的两项重要优化



1. 高效的数据生成策略

我们设计了三项关键机制提升效率:

  • 高质量网格模型通常体积大,加载缓慢且占用内存高。我们通过缓存机制避免重复加载,同时保证数据多样性;

  • 实现了异步数据写入机制,图像和标签可并行保存,从而提升整体生成效率;

  • 支持物理仿真和图像渲染并行处理,进一步提升数据生成速度。具体细节见补充材料。

2. 为模仿学习优化的数据特性

为降低模仿学习的难度,我们引入两项改进:

  • 传统开环抓取方法 通常采用两步(先对准抓取位置,再执行抓取)来避免碰撞,但这种分段方式会导致动作“停顿”,训练出的模仿策略容易出现“犹豫不决”的现象。我们改为一步式运动规划,优先考虑轨迹平滑性而非成功率,从而提升模仿策略的流畅性;

  • 我们还引入机器人初始姿态的随机化,以增强专家演示中对工作空间的探索能力和观察多样性,从而提升模型鲁棒性。



SynGrasp-1B 数据集生成



基于上述流程,我们使用 160 块 NVIDIA 4090 显卡,持续 10 天,生成了总量达 10 亿帧(1B)的合成抓取数据集 SynGrasp-1B


【声明】内容源于网络
0
0
Xbotics具身智能实验室
学习机器人与具身智能技术:1、国内独家机器人具身智能社群圈子人脉。2、Xbotics具身智能社区知识库 https://yv6uc1awtjc.feishu.cn/wiki/WPTzw9ON0ivIVrkLjVocNZh8nLf。
内容 353
粉丝 0
Xbotics具身智能实验室 学习机器人与具身智能技术:1、国内独家机器人具身智能社群圈子人脉。2、Xbotics具身智能社区知识库 https://yv6uc1awtjc.feishu.cn/wiki/WPTzw9ON0ivIVrkLjVocNZh8nLf。
总阅读308
粉丝0
内容353