高层规划器：负责任务分解、代码生成、运动规划、示能学习和3D场景表示等，涵盖基于大语言模型（LLM）、多模态模型（MLLM）的方法，以及传统几何规划和学习驱动的规划技术。
底层学习型控制：聚焦输入建模（如视觉-语言-动作融合）、潜变量学习（预训练编码器、潜动作离散化）和策略学习（强化学习、模仿学习、扩散策略等），强调将高层规划转化为具体动作指令。

关键挑战与瓶颈

数据问题：数据收集成本高、规模不足，需结合人类遥操作、合成数据生成、众包等方法解决。
泛化能力：环境泛化（仿真到现实）、任务泛化（长序列任务、少样本学习）和跨机体泛化（不同机器人形态间的知识迁移）是核心难题。

应用与未来方向
论文总结了机器人操作在家庭辅助、农业、工业、AI4Science、艺术和体育等领域的应用，并指出未来方向包括构建通用机器人大脑、突破数据瓶颈、深度融合多模态感知以及确保安全协作。

该论文以182页的篇幅、对1201篇文献的综述，成为机器人操作领域的重要参考，为推动具身智能发展提供了理论基础和实践指导。

前言

近年来，具身智能（Embodied AI）已成为人工智能领域最前沿的阵地。其中，机器人操作（Robot Manipulation）——即机器人如何通过末端执行器与物理世界交互并改变环境状态的能力——是实现通用机器人的核心挑战。

随着大语言模型（LLM）和视觉-语言-动作（VLA）模型的爆发，机器人操作的研究范式正在经历剧变。然而，从经典的运动规划到现代的端到端学习，方法繁多且碎片化，学术界亟需一个统一的视角来梳理这一庞大的知识体系。

近日，来自西安交通大学、香港科技大学（广州）、中国科学院、西湖大学等顶尖机构的研究团队，联合发布了一篇长达 182 页的重磅综述：《Towards a Unified Understanding of Robot Manipulation: A Comprehensive Survey》。

这篇综述不仅仅是对现有文献的罗列，更提出了一套极具深度的统一分类学架构：

宏观架构：将操作任务解耦为高层规划器（High-level Planner）与底层学习型控制器（Low-level Learning-based Control）。
微观视角：对底层控制进行了全新的拆解，涵盖输入建模、潜变量学习和策略学习。
核心痛点：系统性地剖析了数据（Data）与泛化（Generalization）两大阻碍行业发展的瓶颈。

本文将严格遵循原论文的逻辑架构，按顺序为您逐一解读文中的23张核心图表与关键公式，深度还原这篇综述构建的具身智能知识版图。

综述总览与研究框架

首先，让我们通过论文的开篇大图来建立全局认知。

图 1: 机器人操作综述概览

这张图是具身智能领域的“知识地图”，涵盖了从任务定义、硬件基础、控制范式到应用场景的全流程：

左侧 (Tasks & Datasets)：列出了机器人操作的任务层级。从最基础的抓取，进阶到灵巧手操作、柔性物体操作，以及结合移动底盘的全身操作。
中间 (Control Paradigms)：这是论文的核心理论贡献。它将控制范式明确划分为“思考（Thinking / High-level Planner）”与“行动（Controller / Low-level Controller）”两部分。
右侧 (Taxonomy Details)：展示了底层控制的细分维度，包括RL/IL学习范式、输入建模、潜变量学习和策略学习。
底部 (Bottlenecks & Applications)：指出了当前的两大核心挑战——数据与泛化。

硬件平台

在深入算法之前，了解物理载体至关重要。

图 2: 硬件平台概览

论文对主流硬件进行了分类，按复杂度递增排列：

机械臂：从单臂（如 Franka Panda, UR5）到双臂（如 ALOHA, ABB YuMi）。
末端执行器：从简单的二指夹爪到高度复杂的灵巧手（如 Shadow Hand, Allegro Hand）以及软体手。
移动平台：包括轮式底座、四足机器人（如 Unitree Go2）以及人形机器人（如 Tesla Optimus, Figure 01）。

数据集与基准测试

高质量的数据和标准化的模拟器是算法迭代的基础。

图 3: 模拟器与基准测试概览

这张图展示了主流的仿真环境与数据集，分为抓取数据集、单机体操作基准（如 MetaWorld, Maniskill）和跨机体操作基准（如 Open X-Embodiment）。

表 1: 抓取数据集汇总

从表1可以看出，数据集正在从早期的少量矩形框标注，向千万级规模、引入语言描述和6自由度位姿的方向发展。

表 2 & 表 3

进一步强调了Open X-Embodiment等跨机体数据集的重要性，这是通往通用机器人大模型的必经之路。

机器人操作任务全景详解

论文非常细致地将机器人操作任务分为了七大类，我们将按顺序解读这部分的核心配图。

图 4: 抓取（Grasping）任务方法论

抓取是操作的基石。图4展示了四种主流方法： (a) 纯视觉映射：直接从图像预测抓取位姿。 (b) 多模态特征融合：结合视觉和语言特征。 (c) 模块化流水线：利用高层规划器（如大模型）生成候选项，再进行过滤。 (d) 端到端基础模型：直接微调大模型进行抓取预测。

图 5: 灵巧操作（Dexterous Manipulation）

相比于简单的二指抓取，灵巧手操作强调手指间的协调。图5展示了旋转物体、倒水、开盖等精细动作，这通常需要极高的维度控制。

图 6: 软体机器人操作（Soft Robotic Manipulation）

软体手利用材料的顺应性来处理易碎物体。图6展示了软体手在抓取织物、拧瓶盖等任务中的应用，利用气动或线驱动实现柔性接触。

图 7: 柔性物体操作（Deformable Object Manipulation）

这是目前的一大难点。如图7所示，处理橡皮泥、打开袋子、折叠衣物，难点在于物体的状态空间是无限维的，且形变难以精确建模。

图 8: 移动操作（Mobile Manipulation）

图8展示了结合底盘移动的操作，如整理房间、开冰箱、倒垃圾。这要求机器人具备大范围导航与局部精细操作的结合能力，解决“基座移动”与“手臂操作”的耦合问题。

图 9: 四足操作（Quadrupedal Manipulation）

四足机器人不仅用于行走。图9展示了利用背部机械臂或直接使用腿部进行按开关、开门等操作，适应崎岖地形中的操作任务。

图 10: 人形机器人操作（Humanoid Manipulation）

这是目前的终极形态。图10展示了人形机器人的全身操纵（Loco-Manipulation），如搬运箱子、深蹲捡拾、甚至弹钢琴。重点在于平衡控制与操作的协调。

核心方法论

这是论文最核心的理论贡献，作者提出了一套统一的方法论分类体系。

图 11: 机器人操作方法论分类体系

该图清晰地将方法分为高层规划器（High-level Planner）和底层控制器（Low-level Controller）。底层控制器进一步分为非学习型（如MPC）和学习型（如RL/IL）。

高层规划器

高层规划负责解决“做什么（What to do）”的问题。

图 12: 高层规划器详细分类

图12将高层规划细分为：

LLM-based Task Planning: 利用大语言模型进行任务步骤分解（如 SayCan）。
Code Generation: 生成代码（如 Python）来控制机器人，利用代码的逻辑结构（如 Loop, If）。
Motion Planning: 传统的运动规划。
Affordance: 可供性学习，识别物体“哪里可以操作”。
3D Representation: 利用 NeRF 或 3DGS 理解场景几何。

图 13: 高层规划器工作流图解

图13生动展示了从“用户指令（Cook a potato）”到“任务分解”、“代码生成”、“运动规划”再到“底层执行”的完整数据流。

底层学习型控制

底层控制负责解决“怎么做（How to do）”的问题，即将规划转化为电机指令。

核心公式解读

为了深入理解底层控制，论文给出了严谨的数学定义。机器人操作通常建模为**马尔可夫决策过程 (MDP)**：

: 状态空间（图像、关节角度等）。
: 动作空间（关节速度、力矩等）。
: 奖励函数。

强化学习 (RL) 的目标是最大化累积回报：

**模仿学习 (IL)**，特别是行为克隆 (BC)，则是最小化策略输出与专家动作的差异：

图 14: 模仿学习（IL）方法分类体系

图14将 IL 细分为：

Action-level: 传统的行为克隆（BC）。
Reward-based: 逆强化学习（IRL）和对抗模仿学习（GAIL）。
Observation-only: 仅通过观察视频学习，无需动作标签。
Interactive IL: 人机交互式学习，允许人类介入修正。

图 15: 辅助任务学习概览

除了主任务，还可以引入辅助任务来增强表征能力。图15展示了常见的辅助任务：世界模型预测未来、图像重建（Masked Reconstruction）、对比学习等。

输入建模

这是感知层，决定机器人如何“看”世界。

图 16: VLA 模型分类体系

2D Vision: 大多数 VLA（如 RT-2, Octo）基于 2D 图像，分为非大模型架构和基于 LLM/VLM 的架构。
3D Vision: 引入点云或体素（如 3D-VLA），解决空间歧义，分为模型导向和模型无关的方法。

图 17: 触觉感知模型

引入触觉（Tactile）信息，解决接触丰富任务中的感知盲区，图17展示了触觉与视觉、语言结合的多种模式。

潜变量学习

图 18: 潜变量学习概览

为了提高效率，通常不直接在原始像素上做规划，而是学习一个紧凑的潜变量空间（Latent Space）。图18展示了两种路径：

预训练编码器：使用 ImageNet 或 Ego4D 预训练视觉编码器。
**潜动作 (Latent Action)**：将连续的动作序列离散化（VQ-VAE），形成动作“词表”，便于 Transformer 预测。

策略学习

这是动作生成的“大脑皮层”，决定了模型的表达能力。

图 19: 策略学习架构演进

论文详细梳理了策略架构的演变：

MLP-based: 早期的简单多层感知机。
Transformer-based (如 ACT): 引入动作分块（Action Chunking）技术，利用注意力机制处理时序依赖，显著减少了累积误差。
Diffusion Policy: 当前的 SOTA（最先进）方法。将动作生成建模为去噪扩散过程。相比于预测单一均值，扩散模型能学习动作的多模态分布，在处理多任务和复杂操作时表现出极强的鲁棒性。