机器之心

2025-07-25

230

导读：系统分析了八种主流 action token，探讨了不同动作表示背后的能力支撑、数据扩展策略和适用场景，明确了未来的架构趋势与关键挑战

视觉-语言-动作模型（VLA）统一框架：基于动作词元化的系统性综述

北京大学-灵初智能联合实验室提出全新VLA理解范式，推动具身智能迈向标准化发展

随着GPT-4o、Gemini 2.5 Pro等多模态基础模型在对话、代码生成和数学推理任务中达到甚至超越人类水平，研究者正致力于将这种智能从数字世界延伸至物理空间，实现具身智能。其中，视觉-语言-动作模型（Vision-Language-Action Models, VLA）成为最受关注的前沿方向之一[k]。该类模型借助基础模型的通用能力与大规模学习范式，可处理视觉与语言输入，并生成实时动作，显著增强机器人系统的通用性与适应性[k]。

面对近两年VLA研究爆发式增长所带来的技术路线碎片化问题，北京大学-灵初智能联合实验室首次从“动作词元化”（action tokenization）视角提出统一理解框架[k]。该综述系统分析了八种主流action token，探讨其背后的能力支撑、数据扩展策略及适用场景，明确了VLA架构的未来趋势与关键挑战[k]。论文由灵初智能联合创始人陈源培与北京大学助理教授杨耀东共同担任通讯作者[k]。

VLA模型指依托至少一个视觉或语言基础模型，能够根据多模态输入生成动作输出的系统，其核心目标是将基础模型的数字智能转化为物理世界的执行能力[k]。研究提出统一框架：视觉与语言输入经由一系列VLA modules逐层处理，生成逐步细化的action token，最终转化为实际动作[k]。其中，VLA module是模型中支持端到端梯度传播的最大可微子网络或不可微功能模块（如运动规划），承担特定能力并协同工作[k]。Action token则是模块间传递的动作表示，可视为VLA内部的“动作语言”，承载具体执行信息[k]。

以“端茶倒水”为例，高层模块可生成“抓起茶壶把手”这类language plan作为action token；中层模块据此规划抓取轨迹（trajectory）；底层模块最终将其映射为raw action驱动机械臂执行[k]。这一模块化结构与action token概念为VLA系统提供了清晰的内部逻辑与统一分析视角[k]。

综述识别出当前VLA模型主要采用的八类action token：language description、code、affordance、trajectory、goal state、latent representation、raw action与reasoning，并系统梳理其特性与发展路径[k]。

Language Description通过自然语言描述动作，分为高层的language plan（如“端起杯子”）与底层的language motion（如“手前移5cm”）[k]。该方法兼容LLM/VLM的强大推理能力，支持零样本迁移与复杂任务分解，具备高可解释性与人机协同优势[k]。代表性工作包括SayCan、Hi Robot、pi0.5等[k]。挑战在于表达精度不足与推理延迟，未来趋势是高层用language plan进行任务规划，底层结合精细表示实现精确控制[k]。

Code以程序或伪代码形式表达任务逻辑，包含条件判断、循环结构及API调用，实现透明化、模块化的机器人行为控制[k]。其优势在于利用LLM强大的代码生成能力，支持灵活集成感知模块与计算库（如NumPy），具备良好的可组合性与可调试性[k]。然而，其高度依赖API库覆盖范围，且代码执行环境假设固定，面对动态物理世界易出现鲁棒性问题[k]。未来发展需构建更完善的语义化API体系，并引入形式化验证与运行时监控机制提升安全性[k]。

其他action token类型包括：

Affordance预测可交互区域（“做什么”），与trajectory（“如何做”）互补结合，提升动作生成精度[k]。
Trajectory建模连续运动路径，适用于高动态、实时控制任务[k]。
Goal State通过视频预测目标状态，引导动作生成，增强长程一致性[k]。
Latent Representation作为隐式动作编码，虽具潜力但面临粒度控制、语义覆盖与任务对齐挑战[k]。
Raw Action直接输出控制指令，适合端到端学习，但性能严重依赖高质量数据规模[k]。
Reasoning作为“元token”增强其他token生成，未来将发展为多模态、任务自适应的推理机制[k]。

研究指出，VLA未来将呈现以下趋势：

多token协同架构：顶层使用language description与code实现长程规划，中层融合goal state、trajectory与affordance形成中间表示，底层输出raw action[k]。
从模仿学习到强化学习：引入RL突破模仿学习局限，结合VLM自动生成密集奖励信号，加速训练过程[k]。
从模型到智能体：向具备记忆、探索、反思能力的主动型VLA智能体演进，架构由线性转向双向或图结构[k]。
模型、数据与硬件协同发展：应对物理世界开放性挑战，需三者协同推进，当前仍受限于机器人平台与高质量数据匮乏[k]。
安全与对齐：在提升能力的同时，必须加强安全性保障与人类价值观对齐[k]。

综述还展示了基础模型、VLA模型与数据集的协同演进时间轴，呈现明显的U形发展路径，表明VLA的快速进步由基础模型能力提升与数据资源积累共同驱动[k]。

论文标题：A Survey on Vision-Language-Action Models: An Action Tokenization Perspective
论文链接：https://arxiv.org/abs/2507.01925
仓库地址：https://github.com/Psi-Robot/Awesome-VLA-Papers

具身智能中VLA模型的五大动作表征范式解析

从可操作性到推理，系统梳理视觉-语言-动作模型的核心技术路径与发展挑战

在视觉-语言-动作（VLA）模型的研究中，如何将高层语义指令转化为机器人可执行的动作，是连接感知与控制的关键环节。当前主流的动作表征方式主要包括Affordance（可操作性）、Trajectory（轨迹）、Goal State（目标状态）、Latent Representation（隐式表示）、Raw Action（原始动作）以及Reasoning（推理），每种方式在任务适应性、泛化能力与系统鲁棒性方面各有特点[k]。

Affordance：基于空间语义的交互表示

Affordance指物体“可被如何交互”的结构化空间表示，如杯沿“可抓取”、把手“可拉动”，常以关键点、边界框、分割掩码或可操作性图形式呈现[k]。该表示强调语义明确性与空间对齐，在语言理解与动作执行间构建桥梁[k]。

不同形式各具优势：关键点适用于精确定位交互点；边界框利于实例检测；分割掩码提供像素级功能区域轮廓；可操作性图支持全局稠密的概率化推理[k]。

当前挑战包括：空间表达多限于2D或投影3D，难以满足真实环境的空间理解需求；动态演化建模缺失，无法处理“开盖后可倒出”类状态变化；在遮挡、模糊等干扰下感知鲁棒性不足[k]。

未来发展方向聚焦于：构建原生三维表达（如基于神经辐射场）；引入时序建模以捕捉affordance的动态演化；增强不确定性感知，提升决策安全性[k]。

Trajectory：运动路径驱动的动作编码

轨迹表征描述物体或执行器随时间变化的空间状态序列，体现“从哪到哪如何动”，主要包括点轨迹、视觉轨迹和光流三种形式[k]。其核心优势在于可利用大量无动作标注的通用视频数据进行训练，显著拓宽数据来源[k]。

轨迹具备良好的任务泛化能力，尤其适用于底层运动相似但语义不同的任务（如“擦拭”与“滑动”）；同时具有外显性和人类可解释性，便于模型调试[k]。

主要挑战在于：多数研究局限于2D轨迹，缺乏对三维姿态与旋转信息的完整建模；部分依赖大模型的方法计算成本高、推理频率低；在需要力控或功能理解的任务中语义表达能力有限[k]。

未来趋势包括：发展六自由度（6-DoF）三维轨迹表示；构建轻量化、高效率的生成模型；融合轨迹与语义信息，形成混合式动作表征[k]。

Goal State：以结果为导向的视觉预测

目标状态通过图像、点云或多帧视频预测任务完成后的视觉结果，作为中间规划目标，实现“先想后做”的分层控制架构[k]。高层模型生成目标状态，低层模型据此规划动作序列[k]。

单帧图像具备高可扩展性且可利用无动作视频训练；多帧视频则提供时间上下文与“如何做”的隐式线索，增强跨任务与跨平台的泛化能力[k]。

优势体现在：数据来源广泛、任务特异性强、可解释性高且评估直观[k]。但挑战在于：高质量目标状态生成难度大，可能出现过度具体或偏差；图像/视频生成带来较高推理延迟，影响实时性[k]。

未来研究将聚焦于提升计算效率、增强环境鲁棒性及优化长程任务规划能力[k]。

Latent Representation：跨模态的通用动作学习

隐式表示通过预训练从大规模机器人与人类视频中自动提炼动作特征，分为视觉变化、动作块压缩与任务目标三类信息编码[k]。该方法极大拓展数据来源，使模型能从人类行为中学习并迁移技能[k]。

其核心价值在于：显著提升训练效率（如UniVLA仅用4.45%预训练时间达相当性能）；实现“身体无关”的跨形态迁移；具备融合触觉、听觉等多模态信息的潜力[k]。

挑战主要来自其“黑箱”特性：内部逻辑难以解释与干预，带来调试与安全风险[k]。未来需关注表示粒度细化、任务覆盖完备性以及与人类意图的对齐[k]。

Raw Action：端到端的底层控制指令

原始动作指机器人可直接执行的低层控制信号，如关节角度、末端位姿或轮速，天然支持端到端训练，避免中间映射损失[k]。

随着RT系列、Open-X Embodiment等大规模数据集发布，以及基于Transformer与扩散模型的架构演进，raw action模型正逐步体现类似大语言模型的scaling law效应[k]。预训练+后训练范式显著降低下游任务微调成本[k]。

优势包括：最少人类知识介入，符合通用智能发展原则；便于借鉴LLM/VLM成功路径；支持高效迁移部署[k]。

主要瓶颈在于：真实机器人数据获取成本高，数据规模仍远低于互联网文本；大模型推理速度受限；跨本体泛化能力尚未突破[k]。未来重点在于高效数据获取、推理加速与异构平台迁移[k]。

Reasoning：赋予AI“思考”能力

推理指以自然语言表达的决策过程，解释“为何执行某动作”，作为生成其他action token的中间逻辑桥梁[k]。其源于大模型的“思维链”机制，现已融入多模态VLM，用于具身任务的分析与规划[k]。

通过中间推理步骤，模型能更好理解复杂指令、分解任务，并提升在新场景下的泛化能力[k]。自动驾驶等领域已广泛应用此类方法于场景分析与路径规划[k]。

外化的推理过程极大增强模型可解释性，便于人类审查、纠错与干预，深化人机协作[k]。未来研究将持续优化推理质量、数据合成方法及在高风险场景中的可靠性[k]。

VLA模型的数据金字塔：构建具身智能的关键路径[k]

从网络数据到真实机器人数据，系统解析VLA模型的三类核心数据来源及其在智能决策中的作用[k]

尽管推理技术在VLA（视觉-语言-动作）模型中广泛应用，但仍面临显著瓶颈。冗长的推理过程导致响应延迟，难以满足高频实时任务需求；同时，推理步骤的固定性以及高质量、大规模推理数据集的缺乏，制约了模型的灵活性与进一步发展[k]。

在VLA快速发展背景下，“数据”已成为决定模型能力边界的核心要素。文章依据“数据金字塔”框架，将VLA依赖的数据划分为三层：网络数据与人类视频、合成与仿真数据、真实机器人数据。这三类数据在模态组合、监督粒度和具身相关性方面各具特点，共同支撑模型性能提升与泛化能力扩展[k]。

金字塔底层为网络数据与人类视频。此类数据规模庞大、获取成本低，虽缺乏机器人可执行的动作标签，但为模型提供通用视觉语言理解基础。大量图文对助力模型学习物体、动作与场景的语义表征；第一人称视角的人类演示视频（如厨房操作）则提供丰富的多模态信息。尽管缺少精确动作标注，其高语义密度使其成为预训练阶段不可或缺的资源，帮助模型实现“看懂世界”“听懂任务”，并用于训练trajectory、latent representation等action token[k]。

中层为合成与仿真数据。相较于稀缺且昂贵的真实机器人数据，仿真数据具备成本优势和多样性，同时提供明确的动作标签。主流方法包括离线数据合成（如MimicGen、DexMimicGen、RoboCasa），通过程序化修改和动力学扰动，从少量演示生成大规模多样化轨迹数据；以及交互式仿真平台（如Isaac Lab、Habitat、robosuite），构建可控的“具身训练场”。研究者可通过遥操作、算法规划或强化学习持续生成行为数据，并利用程序化环境生成器增强多样性。当前，越来越多平台融合高保真物理引擎与真实3D场景资产，提升仿真的真实性，适用于复杂任务的前期训练[k]。

顶层为真实机器人数据，承载最贴近物理世界的真实动作信息。相比仿真或人类演示，真机数据包含现实中的动态变化、感知噪声与物理约束，是实现“从仿真到现实”迁移的关键。代表性数据集包括多机器人数据集（如OXE、RoboMIND）、单机器人数据集（如RT-1、DROID、AgiBot World），以及自动驾驶时序轨迹数据（如Waymo Open Dataset-Motion）。这些数据覆盖多种机器人形态在不同场景下的真实操作轨迹，并包含故障轨迹、力矩、声音等多模态信号，显著增强策略训练的现实鲁棒性与泛化能力[k]。

VLA模型正成为通往具身智能的核心路径。该综述首次从action token视角系统梳理技术路线，归纳八类token的设计思路、优劣权衡与发展趋势，并指出当前挑战与未来方向。随着基础模型能力提升、数据持续扩展，VLA研究正加速迈向通用智能的新阶段[k]。

2025世界人工智能大会（7月26-29日）期间，灵初智能将展示其VLA技术产业化成果。发布的Psi R1模型可实现30分钟连续麻将博弈，展现机器人在开放环境中处理复杂任务的能力突破，标志着具身智能从动作执行向认知决策与长程操作的关键跃迁，为行业提供观察VLA技术落地的重要窗口[k]。

【声明】内容源于网络

机器之心

专业的人工智能媒体和产业服务平台

内容 16982

粉丝 0

机器之心专业的人工智能媒体和产业服务平台

总阅读176.7k

粉丝0

内容17.0k

北大-灵初重磅发布具身VLA全面综述！一文看清VLA技术路线与未来趋势