RoboMIND：国家地方共建具身智能机器人创新中心与北京大学计算机学院联合创建的具身智能数据集和Benchmark- 大数跨境

RoboMIND：国家地方共建具身智能机器人创新中心与北京大学计算机学院联合创建的具身智能数据集和Benchmark

AirkingRobots艾科伯特科技

2025-01-05

导读：RoboMIND：国家地方共建具身智能机器人创新中心与北京大学计算机学院联合创建的具身智能数据集和Benchmark

数据集在具身智能技术的发展中扮演着核心角色，它们为机器人提供了学习和适应复杂任务所需的关键信息。与视觉或语言数据相比，收集机器人训练数据是一项更为艰巨的任务。它不仅涉及到在特定环境中对机器人的每个动作进行精确记录，包括关节运动和末端执行器的状态，而且还需要昂贵的硬件和大量的人力资源来保证数据的准确性和可靠性。因此，目前行业内普遍采用的机器人操作策略大多是基于有限的数据多样性而设计的。在这样的背景下，大规模、多样化的具身智能数据集和基准测试（Benchmark）成为了极为宝贵的资源。为了应对这一挑战，国家地方共建具身智能机器人创新中心与北京大学计算机学院合作推出了RoboMIND——一个大规模多构型智能机器人数据集和Benchmark。这个项目旨在捕捉机器人在面对复杂环境和长期任务时的各种交互和经验，以促进能够掌握多样化操作策略的通用模型的训练和发展。RoboMIND包含了5万5千条详细的机器人轨迹数据，覆盖了279项不同任务，并涉及61种不同的物体类型。这些任务涵盖了家居、厨房、工厂、办公、零售等多种生活服务场景。此外，该数据集还包括了基于真实场景构建的数字孪生环境，这不仅增加了数据集的多样性，也提高了数据采集的效率。RoboMIND支持多种机器人构型，包括单臂、双臂以及人形机器人，并能够模拟夹爪或灵巧手等不同的手臂末端工具的使用情况。为了验证RoboMIND的数据质量和效用，研究团队在一系列主流单任务模仿学习模型（如ACT）以及具身多模态大模型（如OpenVLA、RDT-1B）上进行了广泛的测试，并发现该数据集能显著提高模型在现实场景下的任务成功率。这项评测得到了北京智源人工智能研究院的重要支持，并进一步证明了RoboMIND在推动具身智能技术发展中的潜力和价值。

一、RoboMIND数据集特征分析：

1）多样化构型：RoboMIND项目的数据集覆盖了多种类型的机器人轨迹，总计超过55,000条轨迹数据。这些数据不仅涵盖了Franka臂机器人的31,005条轨迹，还包括了“天工”人形机器人的9,686条轨迹、AgileX Cobot Magic V2.0双臂机器人的8,030条轨迹以及UR-5e单臂机器人的6,911条轨迹。这些丰富的数据为研究提供了多样化的训练样本，有助于提升算法在不同场景下的泛化能力。特别是“天工”人形机器人的数据，占到了总数据量的17.4%，其中包含了大量的双臂操作任务。这些任务对双臂协调能力要求较高，对于研究双臂机器人的协同控制和运动规划具有重要意义。通过分析这些数据，可以深入理解双臂机器人在复杂操作任务中的运动规律和协调机制，为双臂机器人的智能控制提供理论基础和技术支持。

2）多样化轨迹长度：研究团队深入分析了各类机器人模型在执行任务时的平均耗时，即每个轨迹所包含的时间步数。结果显示，Franka和UR机器人的轨迹相对较短（通常不超过200个时间步），这使得它们成为训练基础技能的理想选择。而“天工”和AgileX机器人的任务轨迹则明显更长（超过500个时间步），这为它们在长时间跨度任务训练和技能组合方面提供了优势。这一发现对于优化机器人训练策略具有重要意义。

下图生动地呈现了四种机器人平台在执行任务时所运用技能数量的直方图。AgileX平台的任务通常需要两到三种技能的组合，这导致了任务执行时间的延长。相比之下，“天工”平台的任务复杂度各异，部分任务甚至涵盖了高达五种不同的技能。为了更直观地展示这一点，研究团队特别选取了一个涉及三种技能的AgileX任务，并在图中描绘了其双臂协同操作的精确轨迹：两只手臂首先依次完成抓取动作，随后左臂将胡萝卜放置到位，右臂则负责将其移交至黑色盘子中。这一连贯的操作流程对机器人的协调能力提出了极高的要求。

3）任务多样性强：研究团队在对自然语言描述进行深入分析后，采用了一种系统化的方法来对数据集中的任务进行分类。他们综合考虑了物品的大小、使用场景以及操作者所需的技能水平等多个维度，从而确保分类的科学性和实用性。这种分类不仅有助于理解任务的复杂性，还能为后续的研究和应用提供指导。具体来说，他们将任务分为五大类别：基础技能、精准操作、场景理解、柜体操作和协作任务。基础技能类任务主要涉及一些基本的操作技巧，如抓取和放置物品；精准操作则要求更高的精确度和控制能力；场景理解要求操作者能够识别并适应不同的环境条件；柜体操作则专注于与存储设备的交互；而协作任务则需要多个操作者或系统之间的协调与合作。通过这样的分类，研究团队能够更清晰地把握不同任务的特点和难点，为进一步的研究提供了坚实的基础。：

可以看出，除了基础的操作任务，RoboMIND数据集还包含了大量的复杂任务，为通用机器人策略的训练提供了丰富的数据保障。

4）物品类别丰富：RoboMIND数据集的丰富性在于其覆盖的物品类别广泛，共计61种，涵盖了从厨房到家庭、办公及工业等多个场景。在厨房这一特定领域，数据集不仅捕捉了日常食物如草莓、鸡蛋、香蕉和梨子等的细节特征，还精心收录了烤箱和面包机这类具有调节功能的复杂设备。这种设计使得数据集能够模拟真实世界中厨房操作的多样性和挑战性。进一步地，在家庭场景中，RoboMIND数据集展现了对刚性物体如网球的精确捕捉能力，同时也不忽视了可变形物体如玩具的复杂性。办公和工业场景则聚焦于那些需要精细操作的小物体，例如电池和齿轮，这些物品对于机器人操控技能的要求极高。整体而言，RoboMIND数据集通过其多样化的物品种类和场景设置，为开发能够在多变环境中执行复杂任务的机器人提供了宝贵的训练资源。

5）语言描述精确：以AI（Gemini）研究团队采用了一种创新的方法，将人工审核与技术相结合，为10000条成功轨迹提供了详尽的语言注释。这些注释涵盖了关键物体、重要操作以及操作细节等各个方面，为理解这些轨迹提供了宝贵的信息。通过这种细致入微的分析，我们能够深入挖掘成功背后的细节，从而为未来的研究和实践提供指导。

二、RoboMIND数据收集策略：

1）遥操作真机数据采集

RoboMIND的数据采集方式独树一帜，它不依赖于脚本化收集或VR设备的机械运动数据，而是通过自主研发的遥操作系统来实现。这种方法更贴近自然，连贯且平滑，能够精准模拟人类的行为和认知过程。在Franka、UR-5e机器人和模拟机器人的研究中，团队根据Gello方法精心打造了相应的遥操作设备和控制系统。对于AgileX机器人，则采用了其内置的双臂遥操作系统。至于人形机器人“天工”，团队巧妙地结合了Xsens动作捕捉服和Gello风格的遥操作设备。所有的数据收集都在严格控制的内部区域进行，通过最小化操作人员的轮换并保持一致的收集节奏，严格遵循内部标准，从而确保了数据集的高质量。

2）智能数据平台管理

在数据量激增的今天，如何高效地记录、传输、管理和分析数据已成为一个严峻挑战。为了推动具身智能系统的设计和开发，我们的研发团队精心打造了一个先进的智能数据平台。该平台基于云原生架构和分布式计算技术，能够应对大规模数据处理的需求，并提供以下四大核心功能模块： 1. 数据收集：涵盖实时数据传输和设备管理等关键功能。 2. 数据存储：支持PB级别的海量存储，轻松处理结构化与非结构化数据。 3. 数据管理：包括数据清洗、质量评估和版本控制等重要环节。 4. 数据处理与分析：对收集到的数据进行深入分析和高效处理。这个智能数据平台将为您的数据管理带来革命性的改变。

3）数据质检

实时控制系统的数据收集可能受到操作员身体限制的影响，如疲劳、习惯、注意力分散或外部干扰，这些因素都可能导致数据错误。为了解决这些问题，我们的研究团队采取了轮换系统和提供舒适工作环境的策略，以维持操作员的专注度。此外，我们对所有收集的数据执行严格的质量检查，确保其可靠性，并制定了质量保证标准以避免不必要的接触和重复抓取等问题。我们的质量保证过程包括三个关键步骤：首先进行初步检查，快速浏览视频以排除明显的技术问题；其次进行详细检查，逐帧或慢动作分析以确保符合质量标准；最后是数据过滤和问题记录，记录不符合标准的数据的具体时间戳和描述，并进行分类处理。这一系列严格的数据收集和质量管理流程不仅保证了数据的高质量和可靠性，而且为训练更精准、更可靠的机器人模型提供了坚实的基础。

三、RoboMIND数据集实验验证：

研究团队使用RoboMIND数据集，测试了4种目前主流的机器人学习模型，分别为ACT、BAKU、RDT-1B和OpenVLA。以下是RoboMIND数据集包含的部分任务样例：

在单任务实验中，研究团队根据任务类型、物品类型等，均匀选取了45个代表性任务进行训练和测试，实验结果如下：

在最新的研究中，我们惊喜地发现ACT算法在AgileX机器人上执行15项任务时，平均成功率达到了55.3%，相较于Franka（30.7%）、UR-5e（38.0%）和“天工”（34.0%）等其他构型机器人表现更为出色。这一结果不仅证实了ACT算法的高效性，也验证了RoboMIND系统提供的视觉感知和机器人关节信息的精确度。特别是在一些复杂的“天工”任务中，如TK-CloseDrawerLowerCabinet任务，ACT算法的成功率更是高达60%。这些显著的成绩展现了ACT算法在复杂灵巧手操作任务中的稳定性，并突显了RoboMIND数据集的高价值。因此，我们认为RoboMIND中包含的单臂、双臂和灵巧手的数据集是高质量的训练资源，能够显著提升单任务模仿学习的效果，并推动视觉-语言-动作（VLA）模仿学习领域的发展。在多任务实验中，研究团队采用了包含多种不同任务和技能组合的多任务数据集来测试RDT-1B和OpenVLA的性能，并取得了以下成果：