要训练一个具有良好泛化能力的基础模型,必须依赖于一个大规模数据集,涵盖多样的物体和环境条件。与成本高昂、效率低下且范围有限的现实世界人工数据采集方式相比,我们提出完全基于合成数据进行训练的方法——该方式能在更短时间内、以更低代价提供更大的数据多样性。
我们下面将详细介绍合成数据生成流程的核心组成部分:场景布局生成、抓取轨迹生成和图像渲染。
物体资产与场景布局生成
我们使用 Objaverse 数据集中的 LVIS 子集 ,并经过精心筛选,剔除不合适的类别(如武器类),最终保留 240 个类别、10,680 个实例。我们将这些物体进行随机缩放,并以不同姿态“投放”到桌面上,生成多样且物理合理的场景布局。更多细节可参考补充材料。
抓取合成与轨迹生成
在获得初始布局后,我们使用一个先进的模块化系统,构建专家策略,用于生成高质量的抓取与提起轨迹。对于每一个物体实例,我们使用抓取合成算法 生成稳定的对向抓取点(antipodal grasps)。然后利用运动规划算法 CuRobo 规划无碰撞的路径,以到达开环抓取姿态并将物体提起。我们在 MuJoCo 物理引擎 中对所有候选轨迹进行验证,以确保能够成功提起物体。
视觉随机化与图像渲染
基于多样化的场景布局和相应的轨迹,我们使用 Isaac Sim 渲染高质量 RGB 图像,并引入光照、背景和相机设置的随机化。Isaac Sim 支持高效的光线追踪渲染,使图像逼真。我们使用多种光源(点光源、方向光、穹顶光等),并对其参数进行大量随机化。图像从两个不同的视角渲染,以提供对场景的全面观察,并围绕预设中心进行相机外参的随机偏移。更多细节见补充材料。
数据生成流程的两项重要优化
1. 高效的数据生成策略
我们设计了三项关键机制提升效率:
高质量网格模型通常体积大,加载缓慢且占用内存高。我们通过缓存机制避免重复加载,同时保证数据多样性;
实现了异步数据写入机制,图像和标签可并行保存,从而提升整体生成效率;
支持物理仿真和图像渲染并行处理,进一步提升数据生成速度。具体细节见补充材料。
2. 为模仿学习优化的数据特性
为降低模仿学习的难度,我们引入两项改进:
传统开环抓取方法 通常采用两步(先对准抓取位置,再执行抓取)来避免碰撞,但这种分段方式会导致动作“停顿”,训练出的模仿策略容易出现“犹豫不决”的现象。我们改为一步式运动规划,优先考虑轨迹平滑性而非成功率,从而提升模仿策略的流畅性;
我们还引入机器人初始姿态的随机化,以增强专家演示中对工作空间的探索能力和观察多样性,从而提升模型鲁棒性。
SynGrasp-1B 数据集生成
基于上述流程,我们使用 160 块 NVIDIA 4090 显卡,持续 10 天,生成了总量达 10 亿帧(1B)的合成抓取数据集 SynGrasp-1B。

