清华大学：具身通用动作框架UniAct，快速转换为适用于不同机器人的可执行指令，增强具身基础模型性，优化跨域数据利用和跨具身泛化- 大数跨境

清华大学：具身通用动作框架UniAct，快速转换为适用于不同机器人的可执行指令，增强具身基础模型性，优化跨域数据利用和跨具身泛化

AirkingRobots艾科伯特科技

2025-04-14

导读：在探讨大型基础模型的成功时，我们不得不提及它们在多样化、互联网规模的数据训练中所扮演的关键角色。这种数据的广泛性和多样性为模型提供了丰富的信息，使其能够捕捉到复杂模式和行为。然而，当我们将这一理念应用

跨数据集开发困难

在探讨大型基础模型的成功时，我们不得不提及它们在多样化、互联网规模的数据训练中所扮演的关键角色。这种数据的广泛性和多样性为模型提供了丰富的信息，使其能够捕捉到复杂模式和行为。然而，当我们将这一理念应用于具身智能体的构建时，却面临着一系列挑战。尽管众包提供了大量的具身数据集，但由于机器人之间的物理形态和控制接口差异巨大，这些数据集的动作空间异质性问题尤为突出。这种异质性不仅限制了跨域数据的有效利用，也阻碍了具身基础模型的泛化能力。为了解决这一问题，我们提出了UniAct，这是一个创新的具身基础模型框架，它在tokenized的通用动作空间中运行。UniAct通过识别不同机器人共有的结构特征，并学习这些通用动作来捕捉它们在不同情境下的基本行为。这种方法有效地消除了动作空间的异质性问题，从而增强了跨域数据的利用和跨具身泛化的能力。此外，UniAct的设计允许将特定于具身的细节以简单方式添加到通用动作中，使得这些动作可以快速转换为适用于不同机器人的可执行指令。在我们的评估中，UniAct的0.5B实例化模型在各种现实和模拟机器人上的表现超越了比其大14倍的最先进具身基础模型，在跨具身控制和适应能力上展现了显著的优势。这不仅证明了采用通用动作的重要性，也为未来的机器人技术发展提供了新的方向。更多详细信息，请访问我们的项目页面：https://github.com/2toinf/UniAct。

一些介绍

在自然语言处理和计算机视觉等领域，基于庞大且多样化的数据源训练的基础模型已经取得了显著的成功，并展现出了强大的泛化能力。这些模型通过学习通用的特征表示，能够适应不同的任务和环境，从而凸显了学习通用模型相较于特定任务模型的优势。受这些成功案例的启发，开发能够处理跨任务、跨环境和跨具身泛化的多功能具身基础模型，为构建通用具身智能体提供了一条有前景的道路。然而，具身数据的巨大异质性带来了重大挑战。这种异质性不仅体现在由相机位置（如手腕视角或第三人称视角）和环境条件（如光照或背景变化）差异导致的视觉差异上，更关键的是体现在动作异质性上。具有不同具身形态（如自由度不同或机械臂、四足机器人和汽车之间的区别）的机器人拥有完全不同的动作空间。此外，控制接口（如机械臂的末端执行器（EEF）位置或速度控制器）的多样性导致动作命令具有截然不同的物理含义。即使动作是从同一机器人平台上收集的，但由不同的人类操作者执行时，人类行为的多模态性也会加剧这种异质性。因此，从不同机器人和机构收集的具身动作数据往往在原始物理空间（如末端执行器的位置和旋转）内位于大致不相交的流形上，这极大地增加了跨不同数据源共享数据的复杂性。为了解决这一挑战，UniAct采用共享视觉语言模型（VLM）来构建通用行为空间，该空间被设计为一个向量量化codebook。类似于可学习的技能库，每个code封装了一种足够通用的原子行为，可以由不同的机器人执行。这种设置起到了关键的信息瓶颈作用，促使VLM能够识别和利用不同行为空间中共享的原始行为。这种提取方案实现了行为的有效泛化，用于跨具身控制。UniAct-0.5B在广泛的任务中超越了14倍于其大小的模型，如拥有7B参数的OpenVLA。通过简化的异质解码器，这些推导出的通用行为可以被转换为针对各种具身形式的精确、可执行的命令。这些解码器将通用行为作为条件输入，并根据其独特的观测数据为其增添具身特有的特征。这允许根据特定需求进行灵活定制，例如包含或排除本体感受特征，或改变摄像头视角的数量。通过简单地为新任务添加新的轻量级解码器作为新的头部，可以实现快速适应新领域或机器人平台。在具有挑战性的任务设置上进行了全面的评估，包括大视角变化和训练数据中未出现的机器人等复杂场景下的性能表现也得到了验证。这些评估证实了UniAct在迁移学习和泛化能力方面的卓越表现，并展示了在通用行为空间内开发具身基础模型相较于传统异质空间的巨大优势。

相关工作

探索多模态基础模型的边界，大型语言模型（LLMs）以其卓越的零样本学习和上下文学习能力，在众多任务中大放异彩。在此基础上，通过将视觉和语言整合到统一的标记化空间中，我们开发了大型视觉语言模型（VLMs），这些模型在多模态指令遵循方面展现出了卓越的能力。它们的成功得益于大规模互联网级预训练，利用了互联网上庞大且多样化的高质量数据集。在具身基础模型领域，我们引入了动作这一至关重要的模态——机器人可以解释和执行的可部署控制信号。最先进的模型通常构建为视觉语言动作模型（VLA），将视觉和语言输入与可操作的输出相结合。然而，不同机器人平台和实验室收集的动作标签存在显著的异质性，阻碍了不同来源之间的有效数据共享。为了应对这一挑战，许多研究首先使用大规模无动作信息的视觉语言数据来获得良好的具身VLMs，然后针对来自特定机器人平台的小规模动作标签集进行微调。尽管这些方法可以提高特定机器人在狭窄任务集上的样本效率，但在构建通用具身智能体方面存在严重的性能瓶颈。近期的一些工作利用丰富的异构动作标签来开发用于跨具身控制的通用机器人策略。我们的工作旨在提取一个通用的多功能动作空间，类似于潜在空间，但它编码了不同机器人平台上常见的原子控制行为和模式。我们的研究深入到了更复杂的异构环境，并开发了一个大型具身基础模型，超越了以往研究考虑的有限范围。

UniAct 框架

UniAct是一个旨在通用动作空间中运行的具身基础建模框架，它擅长弥合领域差距并促进在大规模异构数据上的训练。这里首先讨论了通用动作的理想特性，然后详细讨论了从异构跨具身数据中提取和解码通用动作的模型架构和学习方案。

4.1 通用动作空间

想象一下，一个理想的通用动作空间，它能够将各种不同形态的控制信号转化为一系列共享的潜在基本行为。这些抽象的行为，我们称之为通用动作，它们跨越所有物理形态的界限，成为共通的语言。我们特别着迷于探索这种通用动作空间的离散版本，这种探索受到离散表示在复杂推理、规划和预测学习中所展现出的强大能力所启发。正如大型语言模型（LLMs）、视觉语言模型（VLMs）以及向量量化变分自编码器（Vector Quantized Variational Autoencoders）的成功案例所示，我们将这种通用动作空间建模，并采用向量量化码本来实现它。

探索空间维度，N代表的是每个D维向量嵌入，它们象征了一种普遍的原子行为。在先驱研究中，通过捕捉视觉状态间的动态变化来构建这些通用潜在动作，追求着相似的理念。但这种方法面临两个主要挑战：首先，观察到的变化不仅源自机器人的控制效果，还可能包括与外部因素（例如环境波动、新物体的出现、人为干预等）相关的变化，这些因素与实际控制并无直接因果联系；其次，两个观察点之间的时间间隔对于原子行为的语义解释至关重要，这增加了在不同数据源间标准化行为解释的难度。

4.2 通用动作提取

为了获得理想的通用动作空间，这里提出了一种新的通用动作提取方法，该方法不再仅仅专注于解释观察到的变化，而是更多地关注于理解任务进展。我们对一个大视觉语言模型进行了微调，将其作为通用动作提取器，该提取器在给定观察结果o和任务目标g（例如语言指令）的情况下，输出选择通用动作u的概率。我们希望所采用的通用动作u*与具身数据中编码的原子行为相匹配，并满足以下条件：

在探索潜在空间的过程中，提取器致力于识别出在特定观察o下，对于解决任务g最为关键的通用动作。这一过程旨在生成与任务进展紧密相连的动作序列，而非仅仅捕捉到观察中的噪声变化。为此，我们采用了视觉语言模型（VLM），它凭借其卓越的视觉-语言推理能力成为实现这一目标的理想工具。通过微调预训练的视觉语言模型，我们显著提升了学习通用动作时的样本效率。尽管如此，不可微的arg max操作成为了梯度传播的障碍。为了克服这一挑战，在训练中我们引入了类别重参数化技术，并运用Gumbel-Softmax方法来优化梯度估计，从而确保前向传播过程的顺畅进行。

其中，是每个通用动作的权重，通过 Gumbel Softmax 函数计算得出：

在这里，是从 Gumbel 分布中采样的 Gumbel 噪声，τ 是用于平滑概率分布的温度参数。为了在训练初期促进参数空间的探索以及保证模型收敛的稳定性，我们在训练过程中逐渐降低温度参数 τ。提出的通用动作提取器如图 2 所示。

4.3 异质解码

为了实现在通用动作空间中将抽象行为高效转换为精确且特定于实体的控制信号，关键在于整合更多实体细节，如控制类型、本体感受和不同观察视角。我们因此引入了一系列轻量级解码器头部，每种类型对应一个，总共有K个，K代表训练领域数量。这些头部专门设计用于学习如何将通用动作u*和视觉观察o映射到领域k中实体的异质控制信号。每个解码器头部的操作可以表示为：

其中，是预测的控制信号。由于参数过多、过于复杂的解码器头部可能会过拟合目标域的数据分布，因此所有异质头部都实现为简单的多层感知机（MLP）网络，它们以通用动作 u∗ 和由共享视觉主干网络提取的视觉特征 o 作为输入。通过保持解码器头部的轻量级，我们确保大部分学习工作都集中在通用动作上，从而最大限度地提高不同实体间的泛化能力。

4.4. Training Procedure

UniAct的主要学习目标是提炼出一个跨不同实体共享的通用动作空间，其关键特征是这些通用动作可以精确地转换回特定领域的控制信号。为了实现这一目标，该模型使用了一个包含K个异质数据集的综合集合进行训练。每个包含一组机器人控制轨迹，表示为 = ，其中是最大长度为T的第i条轨迹，包含观察、动作和目标。UniAct将o和g作为输入，使用通用动作提取器预测通用动作u*，然后将其与o一起通过异质解码头部映射到预测的控制信号。整体训练目标如下：

在这里，是行为克隆损失，它可以根据每个数据集中动作标签的性质进行自定义，例如，对于离散动作使用交叉熵（Cross-Entropy），对于连续动作使用均方误差（MSE）、Huber损失或扩散损失。优化上述目标以学习通用动作codebookU以及通用动作提取器和所有异质解码头部的参数θ。重要的是，虽然U和通用动作提取器在每个训练迭代中都会同时更新，但异质头部是根据特定领域的采样训练批次进行更新的。这种训练策略反映了许多元学习方法中的理念，即学习既允许适应相关任务的全局共享参数，又保证下游任务性能的特定任务组件。通过这种方法，UniAct致力于精炼一个稳健、自适应的通用动作空间，以及一个可以无缝集成到不同实体及其特定操作上下文中的解码策略。

实验分析

探索UniAct框架的精髓，本文将深入剖析其精妙的实现细节。随后，我们将揭晓一系列评估实验的成果，这些实验旨在解答关键疑问：通用动作是否能够显著提升跨领域实体的执行效能？它们能否在未经训练的新实体上实现无缝迁移？更重要的是，UniAct是否成功构建了一个富有意义、普适性的动作空间？让我们一探究竟。

实验设置

实现细节。我们在异构实体数据源上构建了UniAct的0.5B实例化，以探索一个通用动作空间。具体来说，UniAct-0.5B是基于LLaVA-OneVion0.5B构建的，这是一个训练有素的视觉语言模型（VLM），能够提供全面的多模态表征。UniAct-0.5B的训练在64个A100 GPU上使用DeepSpeed进行，历时10天，利用了从28个不同实体收集的100万个演示。训练数据结合了多个开源机器人数据集，包括Open-XEmbodiment、Libero和Droid，这些数据集经过标准化处理，包含了第三人称视觉观察和语言指令，同时保留了动作的异质性。

在探索视觉-语言-动作模型的前沿，我们选择了两款顶尖的开源模型作为基准：Octo和OpenVLA。Octo以其0.1B参数的扩散策略脱颖而出，而OpenVLA则以其7B参数的自回归架构处理离散动作。这两款模型均在约100万个精选机器人演示上进行了深度训练，这些演示经过精心预处理，消除了动作异质性，例如将所有绝对末端执行器位置转换为相对位置，并剔除了关节位置动作。与此同时，UniAct-0.5B在相同数据源上进行了训练，但其数据规模相似却未经历如此复杂的清洗过程。通过与这些基准模型的比较，我们旨在展示UniAct在从多样化数据中提取通用动作的能力，证明其卓越的有效性。

主要结果分析

在探索UniAct-0.5B的跨实体泛化能力时，我们选择了WidowX机器人和模拟的Franka机器人作为测试平台。这两个平台因其在测试通用机器人策略有效性方面的广泛应用而闻名，且它们之间存在显著的领域差异。得益于训练数据集覆盖了这两个实体，我们的预训练异质解码头能够将通用动作无缝转换为可部署的控制信号。我们为真实世界的机器人设计了一系列全面的评估任务，覆盖了视觉、运动、物理、语义和语言落地等多个维度的泛化能力。每个模型在19个任务中进行了评估，每个任务包含10次试验，总计190次试验。图3展示了部分代表性任务和结果。在视觉、运动和物理泛化任务中，UniAct-0.5B的表现超越了体积大14倍的OpenVLA-7B，展现了从异构数据中提取通用动作的优势，特别是在增强对视觉干扰的鲁棒性和低级控制泛化方面。尽管OpenVLA凭借其7B的视觉语言主干网络在语义理解和语言落地能力上表现出色，但UniAct-0.5B在这些任务中也实现了相当的性能，彰显了其高效性和有效性。

探索模拟评估的边界：我们采用LIBERO基准测试来衡量性能。值得注意的是，尽管基线模型并未在模拟数据上进行初始训练，我们还是通过官方代码库和训练指南，在LIBERO平台上对它们进行了精细调整。UniAct和基线模型的训练均基于完全相同的模拟数据集，涵盖任务类型、专家轨迹数量以及图像质量。基准测试涵盖了五个不同套件的130个机器人模拟任务，包括LIBERO-Spatial、-Object、-Goal、-Long和-90套件，其中LIBERO-90套件包含90个任务，其余每个包含10个任务。图4展示了UniAct-0.5B的部署实例及其卓越的性能表现。在所有任务套件中，UniAct-0.5B均超越了基线模型，整体平均准确率分别比7B的OpenVLA高出17.2%，比Octo高出33.6%。这一显著的性能提升得益于UniAct的能力——它能够跨越领域差异并提取出可泛化的原子行为。通过学习来自不同领域的演示以掌握通用动作，UniAct显著提升了在LIBERO基准测试上的任务性能。

快速适应新实体

在最新的实验中，我们引入了一款新型真实世界机器人AIRBOT，以测试其快速适应能力。这款机器人配备了四种截然不同的控制器接口：相对和绝对末端执行器位置以及相对和绝对关节位置。值得注意的是，无论是UniAct还是基线模型，都未在AIRBOT的数据上进行预训练。为了充分评估这些控制接口的多样性，我们收集了100次演示，并针对基线模型进行了细致的微调，以确保其预测准确率达到95%的官方要求。与需要大量训练来适应不同动作类型的基线模型不同，UniAct展现了其卓越的快速适应能力。通过冻结codebook和通用动作提取器，UniAct能够迅速适应新的实体和控制接口。此外，我们还为每种动作类型训练了四个异质解码头，每个解码头都是一个简单的多层感知器（MLP），它们从共享的视觉主干接收通用动作u*和视觉特征o作为输入。这种设计使得UniAct在面对新的实体和控制接口时能够迅速适应，展现出其强大的灵活性和效率。

评估。使用了“将一个立方体堆叠在另一个立方体上”这一任务的简单版本和困难版本进行评估。结果可见于图5。UniAct-0.5B在所有类型的控制信号上都表现出了一致的强大泛化能力，超越了两个基线模型。值得注意的是，UniAct-0.5B用于微调的参数数量与模型总大小之比是最小的（4M / 500M：0.8%）。相比之下，OpenVLA和Octo分别利用了其模型总大小的1.4%（97M / 7000M）和2%（2M / 100M）。这种高效的参数利用凸显了UniAct的有效性和适应性，展示了其在将学习到的通用动作应用于新任务和实体时，以最小的参数空间扩展实现卓越性能的能力。

通用动作的深入分析

从两个角度证明了UniAct构建了一个有意义的通用动作空间：1）在不同实体中，一致的语义行为被编码为相同的通用动作；2）通用动作提取器可以有效地利用不同机器人通用动作空间中的这种共享结构。

通用动作解读。我们手动检查了不同机器人上所有256个通用动作的解码行为，并观察到至少40%的动作表现出完全的一致性。图6显示，即使存在巨大差异，相同的通用动作也可以解码为不同机器人的一致行为。例如，即使具有不同的视角，甚至存在巨大的模拟到现实的差距，不同的机器人在给定相同的通用动作时，也能执行相似的语义上有意义的行为。

使用通用动作进行控制。可以通过选择一系列通用动作来直接与机器人交互，以实现所需的行为。图7清晰地展示了我们可以使用通用动作来控制机器人，而无需任何机器人知识，如学习复杂的正向/逆向运动学变换。这也强调了将通用动作提取器作为动作标记器使用的潜力，以便在这个离散的通用动作空间中进行规划，从而促进未来更先进的实体基础模型的部署。