突破与革新：视觉 - 语言 - 动作（VLA）模型的关键技术与优化策略研究- 大数跨境

首页

突破与革新：视觉 - 语言 - 动作（VLA）模型的关键技术与优化策略研究

AirkingRobots艾科伯特科技

2025-10-15

导读：视觉 - 语言 - 动作（Vision - Language - Action，VLA）模型作为实现具身智能的关键技术之一，能够综合处理视觉、语言及动作信息，使智能体理解人类指令并有效执行任务。

一、引言

1.1 研究背景

在人工智能技术飞速发展的当下，具身智能作为一个新兴且极具潜力的领域，正逐渐成为研究的焦点。具身智能旨在赋予智能体在物理世界中通过感知、决策和行动来实现特定目标的能力，其核心在于智能体与其物理身体和环境之间的紧密互动。这种互动使得智能体能够更好地理解和适应环境，进而实现更加复杂和灵活的任务，为解决现实世界中的诸多问题提供了新的思路和方法。

视觉 - 语言 - 动作（Vision - Language - Action，VLA）模型作为实现具身智能的关键技术之一，能够综合处理视觉、语言及动作信息，使智能体理解人类指令并有效执行任务。随着机器人技术在工业生产、医疗护理、家庭服务等众多领域的广泛应用，VLA 模型的重要性愈发凸显。在工业生产中，机器人需要依据视觉信息识别零部件，理解操作指令，并精准执行装配、搬运等动作；医疗护理场景下，机器人要能够感知患者的状态，领会医护人员的指示，完成协助患者康复训练、药品配送等任务；家庭服务机器人则需识别家居环境中的物体，听懂主人的日常指令，如打扫卫生、开关电器等。

然而，VLA 模型在发展过程中也面临着诸多严峻的挑战。实时控制的严格约束与当前视觉 - 语言模型（Vision - Language Model，VLM）的设计存在显著冲突。当下最强大的 VLM 拥有庞大的参数规模，包含数百亿甚至数千亿个参数，这无疑给实时推理带来了极大的障碍。此外，VLM 操作的是离散 tokens，无法直接输出控制机器人所需的连续值输出。为解决这一问题，近期的 VLA 模型引入了专门模块，如动作专家或连续输出头，以实现高效连续控制。但这些模块通常需要在预训练的 VLM 主干模型中添加新的未训练参数，这又引发了一系列新的问题，如它们是否会保留或降低预训练 VLM 中包含的语义知识，以及对 VLA 训练动态会产生怎样的影响等，这些问题都亟待深入研究解决。

1.2 研究意义

本研究对于完善 VLA 模型的架构和训练理论具有重要的理论意义。通过深入剖析现有模型在实时控制、知识迁移、连续动作输出等方面存在的问题，提出创新性的解决方案，能够进一步优化 VLA 模型的结构和训练方法，丰富和发展具身智能领域的理论体系。从实践角度来看，本研究有助于推动机器人在工业、医疗、家庭服务等领域的更广泛和高效应用。提升 VLA 模型的性能，能够使机器人更加准确、快速地执行任务，提高生产效率和服务质量，为各行业的发展提供有力的技术支持。同时，也为具身智能的落地应用奠定更坚实的基础，促进人工智能技术与现实世界的深度融合，推动社会的智能化发展进程。

1.3 研究目标与创新点

1.3.1 研究目标

本研究聚焦于解决 VLA 模型训练中的速度、知识迁移和连续控制等关键问题。通过深入分析现有模型的不足之处，提出切实可行的创新性解决方案，旨在显著提升 VLA 模型的综合性能，使其能够更好地适应复杂多变的实际场景，更高效、准确地执行各种任务，为具身智能的发展提供更强大的技术支撑。

1.3.2 创新点

本研究提出了知识隔离技术。针对以往微调具有连续输出的 VLM 时，因依赖连续适配器（如扩散头）的梯度作为训练信号，导致训练动态显著下降，降低 VLM 解释语言命令能力和最终 VLA 策略整体性能的问题，本研究提出使用离散化动作微调 VLM 主干网络，同时使动作专家适应生成连续动作（例如通过流匹配或扩散），但不将其梯度传播回 VLM 主干网络。离散动作 tokens 提供了不受动作专家未初始化权重影响的替代学习信号，使 VLM 能够学习适合机器人控制的表示，同时避免受到动作专家梯度的干扰。

本研究采用了联合训练方法。为实现与 VLM 数据的有效协同训练，增强从语言到策略的知识迁移，并实现快速训练，本研究考虑将自回归语言预测、离散动作预测以及连续动作的流匹配建模结合到一个模型中。通过这种联合训练方式，模型能够同时采样实值动作块和文本，灵活混合搭配不同模态的数据进行协同训练，从而增强生成的 VLA 中的知识迁移。在训练过程中，通过使用 FAST 动作 token 学习良好的表示，实现快速收敛；在推理时，通过几个流程集成步骤获得连续动作的快速推理，兼顾了训练速度和推理效率。

1.4 研究方法与论文结构

1.4.1 研究方法

本研究采用了理论分析与实验对比相结合的方法。在理论分析方面，深入剖析 VLA 模型的架构、训练过程以及知识迁移机制，从原理上分析现有方法存在的问题以及提出的创新方法的合理性。在动作表示、状态表示、VLA 架构等方面，详细阐述各种设计选择的原理和影响，为后续的实验研究提供坚实的理论基础。在实验对比方面，构建多个基线和消融模型，并根据不同的数据组合进行重新训练，通过对比不同模型在复杂长范围机器人操作任务以及开源基准测试中的性能表现，验证提出方法的有效性。对 π0、π0 - FAST、OpenVLA - OFT 等多种模型进行实验对比，分析它们在训练速度、知识迁移能力、连续控制精度等方面的差异，从而得出关于模型性能和知识迁移的结论。

1.4.2 论文结构

论文的第二章详细阐述相关工作，对多模态大型语言模型、视觉 - 语言 - 动作模型以及 VLA 中的快速连续动作解码机制等方面的研究进行全面综述，梳理前人的研究成果和不足，为本研究提供充分的背景和基础。第三章深入介绍知识隔离的视觉 - 语言 - 动作模型，包括构建和训练 VLA 模型的标准方法，如动作表示、状态表示、VLA 架构、训练和专家混合等内容；分析当前 VLA 训练方案中存在的问题，如自回归 VLA 速度较慢、机器人专用架构和模态适配器无法从 VLM 预训练中获益太多、机器人的 VLM 预训练没有足够的表征等；提出解决这些问题的具体措施，如联合离散 / 连续动作预测的协同训练与表征学习、知识隔离与梯度流等。第四章展示实验设置与结果，详细说明实验中使用的基线和消融模型、模型实现细节以及实验结果和分析，通过实验数据直观地验证提出方法的优势。第五章对全文进行总结，概括研究的主要成果和贡献，展望未来的研究方向。

二、VLA 模型研究进展

2.1 VLA 模型的发展历程

视觉 - 语言 - 动作（VLA）模型的发展，是一个不断演进、逐步融合多领域技术的过程，其起源可追溯至视觉语言模型（VLM）的发展。早期的 VLM 能够处理图像和自然语言文本，在图像字幕、视觉问答等任务中取得一定成果。例如 CLIP（对比语言 - 图像预训练）模型，它在各种互联网数据上进行训练，能够理解和生成与图像相关的文本。然而，VLM 的局限性在于无法直接输出用于控制物理实体的动作序列。

为解决指令跟随任务，实现智能体在物理世界中的有效动作控制，VLA 模型应运而生。2023 年 7 月 28 日，谷歌 DeepMind 发布全球首个控制机器人的视觉语言动作（VLA）模型 RT - 2，这一模型的推出标志着 VLA 模型的初步形成，展示了其在机器人控制领域的潜力。RT - 2 基于能够处理图像的大语言模型，并进一步训练以实现机器人控制，它可以执行各种基础的语言指令，将机器人的规控表述为一个问题，问题的答案就是发送给机器人的电机指令。

此后，VLA 模型在智能驾驶、机器人等领域得到更广泛的研究和应用。在智能驾驶领域，元戎启行、理想汽车等企业积极布局 VLA 技术。元戎启行将 VLA 与最新的生成式大模型相结合，开发出更强大的自动驾驶功能，并与某头部车企达成量产合作，推出搭载 VLA 模型的智能驾驶汽车。元戎启行的 VLA 模型能识别并理解各种图形、文字类路牌信息，面对左转待行区、可变车道、潮汐车道等 “动态规则路段”，能够读懂字符与图标的含义，高效匹配实时路况。在多车道复杂路口选道直行的场景中，能够准确识别车辆前方的文字及图案标识牌，从左转右转混杂的路口准确找到左转车道，并执行操作。

理想汽车的 VLA 模型发展分三个阶段，从最初依赖规则算法和高精地图的辅助驾驶，到端到端结合视觉语言模型的辅助驾驶，再到如今进行 VLA 研究，旨在让 AI 成为真正会开车的 “老司机”。其训练过程分预训练、后训练、强化训练三阶段，通过学习常识、加入动作数据以及强化训练保障安全舒适，以 “司机 Agent” 呈现，可与用户进行自然语言沟通。用户现在可以通过语音指令改变车辆的路线和行为，比如直接跟理想同学说 “开太快了”“应该走左边这条路” 等，车辆能够理解并执行这些指令；如果用户在商场地库找不到车位时，可以跟理想同学说 “找个车位停好”，车辆便可以自主寻找到车位，整个过程不依赖地图或导航信息，靠的是它对空间的理解和逻辑推理能力。

在机器人领域，研究人员不断改进 VLA 模型架构和训练方法。例如，PI（Physical Intelligence）的第二代 VLA 模型 ——π0，基于拥有 30 亿参数的 Polyglot – LLM（多语言大语言模型）开发，并增加了动作专家模块，采用专家混合模型，能够利用基础 VLM 的内部表示生成连续动作，提升了模型在复杂任务中的表现。

随着技术的不断发展，VLA 模型在处理复杂任务和多模态信息融合方面的能力逐渐增强。其发展历程体现了从单一模态处理到多模态融合，从简单任务执行到复杂场景适应的转变，为实现具身智能提供了重要的技术支撑。然而，当前 VLA 模型仍面临诸多挑战，如实时控制的效率、知识迁移的有效性以及连续动作输出的精确性等问题，这些问题也成为后续研究的重点方向。

2.2 相关理论基础

2.2.1 大语言模型（LLM）与视觉 - 语言模型（VLM）

大语言模型（LLM）是一种基于深度学习的自然语言处理模型，其成功得益于大规模数据集的可用性以及强大的模型架构，如 Transformer。Transformer 架构通过多头注意力机制计算文本序列中前后 token 的关联度，摒弃了传统循环神经网络（RNN）必须遵循序列处理的限制，极大地提升了并行化能力和训练速度。LLM 基于数万亿个 tokens 进行训练，目标是预测下一个 token，从而学习到语言的统计规律和语义信息。例如，GPT 系列模型通过在大规模文本数据上的预训练，能够生成连贯、自然的文本，在文本生成、问答系统、机器翻译等任务中展现出卓越的性能。

视觉 - 语言模型（VLM）则是在 LLM 的基础上，融合了视觉信息处理能力。它通常包含图像编码器、语言模型和跨模态交互模块。图像编码器负责将视觉数据转换为模型可处理的格式，如基于卷积神经网络（CNN）或 Vision Transformer（ViT）从图像中提取特征。语言模型用于分析和生成文本信息，使模型能够对视觉刺激作出适当反应。跨模态交互模块促进视觉和文本数据的整合，增强模型对上下文的理解。以 VisualBERT 为例，它整合了视觉和文本信息，在视觉问答任务中，能够根据输入的图像和问题，利用跨模态交互机制理解图像内容和问题语义，从而生成准确的答案。

LLM 和 VLM 为 VLA 模型提供了重要的理论和技术支持。LLM 的语言理解和生成能力，使 VLA 模型能够理解人类语言指令，并将其转化为相应的动作规划。VLM 的视觉与语言融合能力，让 VLA 模型能够结合视觉感知信息，对环境进行理解和分析，为动作决策提供依据。例如，在机器人操作任务中，VLA 模型可以借助 LLM 理解 “将杯子放到桌子上” 的指令，通过 VLM 对视觉场景中杯子和桌子的识别与定位，最终生成控制机器人手臂执行动作的指令。

2.2.2 强化学习在 VLA 中的应用

强化学习是一种通过智能体与环境进行交互，根据环境反馈的奖励信号来学习最优行为策略的机器学习方法。在 VLA 模型训练中，强化学习起着至关重要的作用。它通过设计合理的奖励机制，引导模型学习到能够最大化奖励的动作策略。例如，在智能驾驶场景下，对于做出安全、高效驾驶决策的动作给予正奖励，如合理的车速控制、准确的车道保持等；对于危险或低效的驾驶行为给予负奖励，如急刹车、违规变道等。

中科院自动化所提出的 ConRFT 方法，就是一种面向 VLA 模型后训练的强化微调方法。该方法由离线和在线微调两阶段组成，并采用统一的基于一致性策略的训练目标。离线微调阶段利用人类收集的专家数据，提取有效的策略和稳定的价值函数，通过结合 Cal - QL（一种价值函数更新方法）和 BC（Behavior Cloning）损失，解决了有限演示数据下策略难以训练和 Q 值估计不准的问题。在线微调阶段通过人在回路（Human - in - the - Loop Learning, HIL）进行干预，并使用奖励驱动的策略学习，解决了在真实环境下进行强化学习的安全要求和样本效率两个挑战。

通过强化学习，VLA 模型能够不断优化自身策略，提高在复杂环境和任务中的适应性和性能。它使得 VLA 模型不再仅仅依赖于预定义的规则或监督学习数据，而是能够在实际交互中自主学习和改进，从而更好地应对各种未知情况和变化，实现更智能、灵活的动作控制。然而，将强化学习应用于 VLA 模型也面临一些挑战，如真实环境中机器人与环境交互的成本高、安全性要求严格，以及强化学习算法本身的样本效率低、收敛速度慢等问题，需要进一步研究和改进算法来解决。

2.3 现有研究的不足与挑战

当前 VLA 模型在实时控制、知识迁移、连续动作输出等方面存在诸多问题和挑战。

在实时控制方面，最强大的 VLM 拥有庞大的参数规模，这给实时推理带来了巨大障碍。例如，一些 VLM 包含数百亿甚至数千亿个参数，在处理机器人控制任务时，由于计算量过大，难以满足实时性要求。自回归 VLA 将预测实值动作的问题转化为离散的下一个 token 预测问题，这不仅限制了模型可表示值的分辨率，还导致推理速度缓慢且顺序性差。如 π0 - FAST 在 RTX4090 GPU 上预测 1 秒动作块的推理时间约为 750 毫秒，如此长的推理时间在动态场景中可能导致机器人的动作与环境变化不匹配，整体轨迹速度缓慢，无法及时对突发情况做出响应。

在知识迁移方面，虽然 VLA 模型旨在继承底层 VLM 在互联网规模数据上预训练得到的知识，但实际效果并不理想。机器人专用架构和模态适配器虽然能够实现更快的推理速度，如 π0 架构中的动作专家比 VLM 主干模型的参数更少，可以实现 10 Hz 的控制频率，比自回归 VLA（1.3 Hz）快得多，但这些机器人专用模块通常是从头初始化的。用随机初始化的动作专家进行简单训练会损害模型遵循语言命令的能力，可能是由于梯度干扰导致预训练的 VLM 主干知识无法有效迁移到 VLA 模型中，使得模型在理解和执行语言指令时出现偏差。

在连续动作输出方面，VLM 操作的是离散 tokens，而机器人控制需要连续值输出。为解决这一问题，近期的 VLA 模型引入了动作专家或连续输出头，但这些模块在生成连续动作时存在一些问题。例如，使用流匹配训练的动作专家梯度，可能会对图像编码器和语言模型主干网络的训练动态产生不利影响，尤其是当新的、随机初始化的动作专家添加到预训练的主干网络时，会干扰预训练权重，降低模型性能。此外，将连续动作转换为离散 token 进行处理时，可能会丢失一些信息，导致动作输出不够精确，无法满足机器人在一些精细操作任务中的需求。

综上所述，当前 VLA 模型在多个关键方面存在不足，这些问题严重制约了 VLA 模型的性能提升和广泛应用，亟待深入研究并寻找有效的解决方案。

三、VLA 模型的关键技术分析

3.1 VLA 模型的标准构建与训练方法

构建和训练视觉 - 语言 - 动作（VLA）模型是实现具身智能的关键步骤，其标准方法融合了多领域的技术和理念。训练 VLA 模型 π 的核心思路是对视觉 - 语言模型（VLM）进行调整，使其能够根据输入的图像观测\(I_{1:V}\)、机器人本体感受状态\(q\)和自然语言指令\(l\)，输出机器人动作\(a\)，即\(a \sim \pi(Â· | I_{1:V}, q, l)\) 。这种模型构建方式的优势在于，当依据机器人动作进行微调时，能够继承底层 VLM 在互联网规模数据上预训练所获得的知识，从而使机器人具备更丰富的语义理解和动作决策能力。

在实际应用中，图像观测\(I_{1:V}\)通常由机器人搭载的摄像头等视觉传感器获取，这些图像包含了机器人所处环境的丰富视觉信息，如物体的形状、位置、颜色等。机器人本体感受状态\(q\)则通过编码器、惯性测量单元（IMUs）、力矩传感器等传感器收集，它反映了机器人自身关节角度、速度、加速度、姿态等信息，帮助机器人了解自身身体的状态。自然语言指令\(l\)是人类与机器人交互的重要方式，机器人需要理解这些指令的语义，并将其转化为实际的动作。例如，当人类发出 “将桌子上的苹果拿给我” 的指令时，VLA 模型需要结合当前的图像观测，识别出桌子和苹果的位置，再根据本体感受状态确定自身的位置和姿态，从而生成一系列精确的动作指令，控制机器人手臂完成抓取苹果并递给人类的任务。

VLA 模型的训练过程涉及到多个关键环节。首先是数据收集，需要收集大量的图像观测、机器人本体感受状态数据以及对应的自然语言指令和动作数据。这些数据可以来自实际的机器人操作场景，也可以通过模拟环境生成。例如，在机器人实验室中，可以设置各种不同的任务场景，让机器人在执行任务的过程中记录下相关数据；或者利用模拟软件，构建虚拟的机器人环境，生成大量的模拟数据。然后是数据预处理，对收集到的数据进行清洗、标注和特征提取等操作，使其能够被模型有效处理。在标注过程中，需要准确标记出图像中的物体类别、位置，以及自然语言指令与动作之间的对应关系。接着是模型训练，将预处理后的数据输入到 VLA 模型中，通过优化算法不断调整模型的参数，使其能够准确地根据输入生成预期的动作输出。常用的优化算法有随机梯度下降（SGD）及其变种 Adagrad、Adadelta、Adam 等，它们能够根据损失函数的梯度信息，逐步更新模型参数，以最小化损失函数。在训练过程中，还需要设置合适的超参数，如学习率、批大小、训练轮数等，这些超参数的选择会对模型的训练效果和性能产生重要影响，通常需要通过实验进行调优。

3.2 动作表示方式

3.2.1 简单离散化

简单离散化是一种将机器人动作表示为离散 token 的基础方法。在大多数情况下，机器人动作\(a\)是实值向量，常表示机器人关节角度或末端执行器坐标。简单离散化的原理是将动作块中每个动作的每个维度进行离散化处理，即将连续的动作值划分到有限个区间中，每个区间对应一个离散值。然后，将每个离散化块与一个特殊的文本 token 关联起来，这样，动作块\(a_{1:H}\)就被映射到\(H Â· d\)个 tokens 中，其中\(H\)表示动作块的长度，\(d\)表示动作的维度。以机器人手臂关节角度为例，假设关节角度的取值范围是\([0, 360Â°]\)，如果将其离散化为 10 个区间，那么每个区间对应一个离散值，如\(0 - 36Â°\)对应离散值 1，\(36 - 72Â°\)对应离散值 2，以此类推。

这种动作表示方式的优点在于实现简单，易于理解和操作，并且可以直接利用视觉 - 语言模型（VLM）的下一个 token 预测机制进行训练。机器人动作预测被构建为下一个 token 预测问题，模型可以像一个非机器人特定的、带有交叉熵损失的视觉 - 语言模型（VLM）一样进行训练。然而，简单离散化也存在明显的缺点。对于高频和高维系统，动作的维度\(d\)较大，且需要表示的动作序列长度\(H\)可能也较长，这会导致表示动作的 token 数量快速增长。过多的 token 会大大增加计算成本，使模型的训练和推理变得更加复杂，同时也会导致训练收敛速度缓慢。此外，离散化过程会不可避免地丢失一些动作信息，因为连续的动作值被近似为有限个离散值，这会降低动作表示的精度，在一些对动作精度要求较高的任务中，可能会影响机器人的操作效果。因此，简单离散化通常适用于动作维度较低、对精度要求不是特别高的简单任务场景，在复杂的机器人控制任务中，其应用受到一定限制。

3.2.2 时间动作抽象

时间动作抽象是为了解决简单离散化在处理高频和高维系统时存在的问题而提出的技术。近期的一些研究，如 PRISE 和 FAST，通过应用一种在时间上压缩信息的变换来减轻简单离散化带来的计算负担和精度损失。其中，FAST 方法具有代表性，它通过对动作块中的每个维度应用离散余弦变换（DCT），将动作信号从时域转换到频域。DCT 能够将动作信号分解为不同频率的余弦波分量，突出信号的主要特征，从而在一定程度上压缩信息。然后，对变换后的系数进行量化，将连续的系数值映射到有限个离散值上，进一步减少数据量。最后，使用字节对编码（BPE）对量化后的系数进行编码，生成动作 token 。字节对编码是一种数据压缩算法，它通过统计字符对的出现频率，将频繁出现的字符对合并为一个新的字符，从而减少字符的数量，实现数据的压缩。

FAST 方法在处理高频和高维系统时具有显著优势。它能够有效地减少表示动作所需的 token 数量，降低计算成本，提高训练和推理效率。由于 DCT 变换能够突出动作信号的主要特征，即使在压缩信息的情况下，也能较好地保留动作的关键信息，从而在一定程度上提高动作表示的精度。这使得模型在处理复杂的高频和高维动作时，能够更准确地学习和生成动作序列。例如，在机器人执行快速、复杂的操作任务时，如工业机器人在高速装配线上的操作，FAST 方法能够更有效地处理动作信息，使机器人能够更快速、准确地完成任务。然而，FAST 方法也并非完美无缺，它在一定程度上增加了模型的复杂性，需要额外的计算资源来进行 DCT 变换、量化和字节对编码等操作。此外，虽然它能提高动作表示的精度，但在一些极端情况下，仍然可能存在信息丢失的问题。

3.2.3 扩散和流匹配

扩散和流匹配是近年来在 VLA 模型中用于生成连续动作的重要方法。许多最近提出的 VLA 模型利用扩散或流匹配来生成连续动作，实验中常遵循 π0 的设计，使用流匹配 “动作专家” 。流匹配的原理基于扩散模型的变体，它通过对连续的运动指令进行建模，实现高频率的动作控制。具体来说，对于流匹配时间索引\(\tau \in [0, 1]\)，模型的输入是动作块\(a^{\tau,\omega}_{1:H} = \tau a_{1:H} + (1 - \tau) \omega\)，\(\omega \sim N(0, I)\)的噪声版本，其中\(a_{1:H}\)是真实的动作块，\(\omega\)是从标准正态分布\(N(0, I)\)中采样得到的噪声向量，\(I\)是单位矩阵。模型的训练目标是预测流\(\omega - a_{1:H}\)，即通过学习噪声与真实动作之间的差异，来生成准确的动作。

在推理时，将该流场进行积分以对\(\omega\)进行去噪，得到最终的动作块。具体过程是，从噪声动作块开始，逐步根据预测的流场对其进行调整，通过多次迭代，使噪声逐渐减小，最终得到接近真实动作的输出。以机器人的抓取任务为例，模型首先接收到带有噪声的动作块，然后根据训练学习到的流场信息，不断调整动作块，使其逐渐接近能够准确抓取物体的动作。扩散和流匹配方法的优点在于能够表示复杂的连续动作分布，选择非常精确的动作，并捕捉灵巧的高频技能。它克服了离散化动作表示在精度和连续性方面的不足，特别适合于需要高精度手部操控的任务，如机器人的精细装配、手术辅助等。然而，这种方法也存在一些问题，使用流匹配训练的动作专家梯度，可能会对图像编码器和语言模型主干网络的训练动态产生不利影响，尤其是当新的、随机初始化的动作专家添加到预训练的主干网络时，会干扰预训练权重，降低模型性能。

3.3 状态表示形式

3.3.1 文本状态

机器人本体感受状态的准确表示对于 VLA 模型的性能至关重要，目前主要存在三种不同的表示形式，分别是文本状态、特殊 token 状态和连续状态，它们各有特点，对模型性能也会产生不同的影响。

文本状态是将机器人本体感受状态离散化后表示为文本。这种表示方式的优点是与语言模型的输入形式相兼容，便于模型对状态信息进行处理和理解。因为语言模型在处理文本数据方面具有强大的能力，将状态信息转化为文本形式后，可以充分利用语言模型的语义理解和推理能力。在机器人执行任务过程中，将关节角度、速度等状态信息离散化后，用文本描述为“关节 1 角度为 30 度，速度为 5” 等形式，模型可以像处理自然语言指令一样对这些状态信息进行分析和处理。然而，文本状态表示也存在缺点，离散化过程会丢失部分精度，因为连续的状态值被近似为有限个离散值。并且将状态信息转换为文本形式可能会增加计算量和处理复杂度，影响模型的运行效率。

3.3.2 特殊 token 状态

特殊 token 状态是使用特殊 token 并进行离散化来表示机器人本体感受状态。这种方式在一定程度上可以减少文本状态表示中信息丢失的问题。通过为不同的状态值分配特殊的 token，可以更精确地表示状态信息。可以为不同的关节角度范围分配不同的特殊 token，这样能够更细致地描述机器人的状态。特殊 token 状态表示还可以利用模型对 token 的处理能力，提高状态信息的处理效率。但是，特殊 token 状态表示也需要预先定义和管理大量的特殊 token，这增加了模型的复杂性和管理难度。并且在处理一些复杂的状态信息时，特殊 token 可能无法完全表达其丰富的语义和细节。

3.3.3 连续状态

连续状态是使用学习的投影将连续状态直接映射到主干网络。这种表示方式的最大优点是能够保留状态信息的完整性和精度，因为不需要进行离散化处理。连续状态可以更准确地反映机器人的真实状态，为模型的决策提供更精确的依据。在机器人进行高精度操作任务时，连续状态表示可以使模型更好地根据当前状态调整动作，提高操作的准确性。然而，连续状态表示也对模型的处理能力提出了更高的要求，因为连续状态值的范围和变化可能较为复杂，模型需要具备更强的学习和适应能力来处理这些信息。并且将连续状态映射到主干网络需要合适的投影方法和参数调整，这增加了模型训练的难度。3.4 VLA 架构、训练和专家混合

3.4.1 VLA 架构设计

VLA 模型的架构设计是实现其功能的关键，大多数 VLA 模型基于多模态 Transformer 构建，通常使用预训练的 VLM 权重进行初始化，以充分利用 VLM 在大规模数据上学习到的知识。基于 Transformer 的 VLA 架构通用形式，能够将\(n\)个多模态输入 tokens 序列\(x_i\)映射到\(n\)个多模态输出 token 序列\(y\)的概率。对于 VLA，通常\(y = y^a\)对应于动作目标，即模型的输出是机器人的动作。先前的研究考虑联合训练一个模型用于动作预测和 VLM 任务（其中\(y = y^l\)是 token 化的文本输出）。

每个 token 可以是文本 token (\(x^l_i\))、图像 patch (\(x^I_i\)) 或一个连续输入 (\(x_i\))，例如机器人状态或动作，其模态类型\(\rho\)表示为：\(i \rightarrow \{å›¾åƒã€å•è¯ã€åŠ¨ä½œã€çŠ¶æ€ã€â€¦â€¦\}\) 。这些不同类型的 token 通过不同的编码器\(\varphi_j\)嵌入到模型中，其中\(T_j\)是所有类型为\(j\)的多模态 token 空间，\(d_e\)是模型的嵌入维度。图像 patch 使用视觉 transformer 进行编码，利用其强大的视觉特征提取能力，从图像中提取出物体的类别、姿态、几何形状等关键信息。文本 token 使用嵌入矩阵进行编码，将文本转换为模型能够处理的向量表示。连续输入通过仿射投影进行编码，将连续的状态或动作值映射到合适的向量空间。注意掩码\(A (\rho(i))^n_{i=1} \in \{âˆ’âˆž, 0\}\)表示哪些 token 可以相互关注，它在模型中起到控制信息流动的作用，使得模型能够根据任务需求，有选择地关注不同模态的信息。

Transformer 是一个函数\(f\)，它将\(n\)个输入嵌入映射到\(n\)个输出嵌入。它通过堆叠多个块构建而成，这些块本身由注意层、前馈层和规范化层组成。在标准 Transformer 中的注意层计算为\(attn(X) = E(X)W_V\)，其中\(E(X) = P(X)V(X)\)，\(P(X) = softmax(Q(X)K(X)^T)\)，\(Q(Â·)\)、\(K(Â·)\)和\(V (Â·)\)是查询、键和值投影。与标准 Transformer 相比，该模型使用不同的权重处理不同的 tokens，以更好地适应多模态输入的特点。例如，在 π0 模型中，从 PaliGemma 初始化 VLM，并使用一组较小的权重作为动作 tokens，这显著减少了生成动作时的推理时间。主干和动作 tokens 有各自的查询、键和值投影，但这些投影的维度\(d_q\)、\(d_k\)、\(d_v\)相同，以便专家之间可以相互交互，促进不同模态信息的融合和协同处理。

3.4.2 训练过程与损失函数

VLA 模型的训练过程涉及到多个关键步骤和损失函数的优化，以确保模型能够准确地根据输入生成预期的动作输出。大多数 VLA 模型在大型机器人行为克隆数据集上进行训练，通过学习大量的机器人操作数据，使模型能够掌握不同任务和场景下的动作策略。

对于自回归架构的 VLA 模型，标准的训练流程是最小化目标 tokens 的负对数似然，即\(L_{AR - VLA}\) 。在这种训练方式下，模型根据当前的输入和之前预测的 token，逐步预测下一个 token，通过最小化预测 token 与真实 token 之间的负对数似然，来调整模型的参数。假设模型预测的下一个 token 的概率分布为\(P(y_{t}|y_{1:t - 1}, x)\)，其中\(y_{t}\)是第\(t\)个真实 token，\(y_{1:t - 1}\)是之前预测的 token 序列，\(x\)是输入信息，那么\(L_{AR - VLA} = - \sum_{t = 1}^{T} \log P(y_{t}|y_{1:t - 1}, x)\)，\(T\)是 token 序列的长度。通过不断优化这个损失函数，模型能够学习到如何根据输入生成准确的 token 序列，从而实现动作预测。

在使用流匹配进行动作预测的情况下，损失函数记为\(L_{FLOW - VLA}\) 。如前文所述，流匹配模型的输入是动作块的噪声版本，训练目标是预测流，那么损失函数通常基于预测的流与真实流之间的差异来定义。可以使用均方误差（MSE）来衡量预测流\(\hat{\omega} - \hat{a}_{1:H}\)与真实流\(\omega - a_{1:H}\)之间的差异，即\(L_{FLOW - VLA} = \frac{1}{N} \sum_{i = 1}^{N} (\hat{\omega}_i - \hat{a}_{1:H,i} - (\omega_i - a_{1:H,i}))^2\)，\(N\)是样本数量。通过最小化这个损失函数，模型能够学习到准确的流场，从而在推理时通过积分流场对噪声动作块进行去噪，生成准确的动作。

在实际训练过程中，还可以根据具体情况对损失函数进行调整和优化。可以引入正则化项来防止模型过拟合，提高模型的泛化能力。常用的正则化方法有 L1 和 L2 正则化，通过在损失函数中添加正则化项，

四、当前VLA 训练方案问题剖析

4.1 自回归 VLA 的速度瓶颈

自回归 VLA 在预测实值动作时，将问题转化为离散的下一个 token 预测问题，这种方式虽然在一定程度上利用了视觉 - 语言模型（VLM）的下一个 token 预测机制，但也带来了严重的局限性。从分辨率角度来看，离散化动作的过程不可避免地会丢失信息。由于连续的实值动作被划分到有限个离散区间中，每个区间对应一个 token，这就导致动作的表示精度受到极大限制。在机器人执行一些需要高精度控制的任务时，如精密装配、手术辅助等，离散化动作的低分辨率可能无法满足任务要求，使得机器人无法准确地完成操作，降低了任务的成功率和质量。

在推理速度方面，自回归 VLA 存在明显的劣势。其推理过程是基于离散 token 的自回归解码，需要依次预测每个 token，这一过程计算成本高昂且顺序性强。随着模型规模的不断增大，这种计算负担愈发沉重。例如，π0 - FAST 在 RTX4090 GPU 上预测 1 秒动作块的推理时间约为 750 毫秒，如此长的推理时间在动态场景中会带来严重的问题。在动态场景下，环境信息变化迅速，机器人需要及时做出响应以适应环境变化。而 π0 - FAST 的长推理时间使得机器人的动作与环境变化之间产生延迟，导致动态不匹配。在机器人进行快速移动或操作时，由于推理时间过长，机器人可能无法及时调整动作，从而出现动作失误、操作不稳定等问题，影响整体轨迹速度和任务执行效果。这种速度瓶颈限制了自回归 VLA 在一些对实时性要求较高的场景中的应用，如自动驾驶、实时机器人交互等场景，在这些场景中，机器人需要快速做出决策并执行动作，以确保安全和高效地完成任务。

4.2 机器人专用架构与知识迁移困境

π0 等机器人专用架构在知识迁移方面面临着严峻的挑战。虽然这些架构通过引入机器人专用模块，如 π0 架构中的动作专家，能够实现更快的推理速度，其动作专家比 VLM 主干模型的参数更少，可以实现 10 Hz 的控制频率，远高于自回归 VLA 的 1.3 Hz 。然而，这些机器人专用模块通常是从头初始化的，这就导致在训练过程中出现了问题。

当使用随机初始化的动作专家进行简单训练时，会对模型遵循语言命令的能力产生损害。这可能是由于梯度干扰导致的。在训练过程中，动作专家的梯度会与预训练的 VLM 主干网络的梯度相互作用，从而干扰了预训练权重。预训练的 VLM 主干网络在大规模互联网数据上学习到了丰富的语义知识，这些知识对于模型理解和执行语言命令至关重要。但动作专家的梯度干扰使得这些知识无法有效地迁移到 VLA 模型中，导致模型在理解和执行语言指令时出现偏差。在实际应用中，当机器人接收到语言指令 “将杯子从桌子上拿到椅子旁边” 时，由于知识迁移受阻，模型可能无法准确理解指令中的语义信息，如 “杯子”“桌子”“椅子” 等物体的概念以及 “拿到”“旁边” 等动作和位置关系，从而无法生成正确的动作序列，导致机器人无法完成任务。这种知识迁移困境限制了机器人专用架构在需要准确理解和执行语言命令的任务中的应用，降低了机器人的智能水平和适应性。

4.3 机器人 VLM 预训练的表征缺陷

在机器人视觉 - 语言 - 动作（VLA）模型中，对视觉 - 语言模型（VLM）进行预训练时，采用冻结预训练权重的方式存在严重的局限性。从理论上来说，冻结预训练权重的初衷是为了避免在训练过程中对已学习到的知识进行破坏，从而维护 VLM 预训练知识，并避免因新添加的特定机器人权重的训练而导致的问题。然而，当前的 VLM 在预训练过程中，并没有使用机器人数据进行训练，这就导致其表征存在缺陷。

机器人在实际应用中所面临的环境和任务具有独特性，其产生的观测数据，如多视角图像和本体感受状态，与 VLM 预训练所使用的数据有很大差异。在机器人执行任务时，需要根据自身的本体感受状态，如关节角度、速度、加速度等信息，结合视觉信息来做出决策。而冻结后的 VLM 预训练表征，由于缺乏对机器人数据的学习，无法准确地处理这些与机器人相关的信息，不能为训练高性能策略提供足够的支持。在机器人进行复杂的操作任务时，如在杂乱的环境中寻找并抓取特定物体，冻结后的表征无法准确地识别物体、理解环境布局以及根据自身状态规划合理的动作路径，使得机器人难以高效、准确地完成任务。因此，冻结预训练权重的方法在机器人 VLM 预训练中无法满足高性能策略训练的需求，需要寻找更有效的方法来改进 VLM 的预训练，使其能够更好地适应机器人控制的任务。

五、改进策略与实验验证

5.1 联合训练与知识迁移增强

5.1.1 联合离散 / 连续动作预测的协同训练

为有效提升视觉 - 语言 - 动作（VLA）模型的性能，实现快速训练与高效知识迁移，本研究提出一种创新性的协同训练方法，将自回归语言预测、离散动作预测以及连续动作的流匹配建模有机结合。这种联合训练方式的核心优势在于，能够使模型同时学习不同模态的信息，从而显著增强从语言到策略的知识迁移效果。

在实际训练过程中，模型的输出空间精心设计为\(y = (a_{1:H}, y^{l,a})\)，其中\(a_{1:H}\)代表连续动作，\(y^{l,a}\)表示语言 token 和离散动作 token。这意味着模型不仅要精准预测连续的动作序列，还需生成与动作紧密相关的语言描述和离散动作表示。为达成这一目标，采用 FAST token 化器将连续动作巧妙转换为离散 token，使模型能够对动作进行统一处理。

以机器人执行物体抓取任务为例，模型首先接收自然语言指令“抓取桌子上的苹果”，同时获取来自摄像头的图像观测以及自身的本体感受状态信息。在处理这些信息时，模型会依据输入，同步生成连续的手臂动作序列，精确控制手臂的伸展长度、关节角度等，以准确抓取苹果；还会生成与动作相关的离散 token，如 “伸出手臂”“靠近苹果”“抓取” 等，以及相应的语言描述，进一步阐释动作的意图和步骤。

通过这种联合训练方式，模型能够从多个维度深入学习动作和语言之间的关系，进而大幅提高知识迁移的效果。在训练过程中，同时运用 token 预测损失（\(L_{AR - VLA}\)）和流匹配损失（\(L_{FLOW - VLA}\)）的组合来训练模型。\(L_{AR - VLA}\)用于优化模型对离散 token 的预测能力，使模型能够准确生成与动作和语言相关的 token 序列；\(L_{FLOW - VLA}\)则专注于训练模型生成准确的连续动作，通过最小化预测流与真实流之间的差异，提高动作的精度。这种损失组合能够使模型在学习离散动作表示的同时，也能熟练掌握连续动作的生成技巧，从而实现更高效的知识迁移。在处理复杂任务时，模型可以根据之前学习到的离散动作 token 和语言知识，迅速理解任务要求，并生成合适的连续动作序列，显著提高任务执行的成功率。

5.1.2 与 VLM 数据的联合训练

在非动作数据集，如通用视觉 - 语言数据和机器人规划数据上联合训练模型，是提升 VLA 模型性能的另一关键策略。这种联合训练方式能够确保模型在适应 VLA 时丢失更少的知识，有效增强模型的泛化能力和知识迁移效果。

通用视觉 - 语言数据包含丰富的图像和文本信息，涵盖各种场景和语义，能帮助模型学习广泛的视觉和语言知识。在这些数据上训练，模型可接触不同类型的物体、场景和语言表达方式，丰富自身知识储备。例如，模型能学习不同物体的外观特征、属性及它们之间的关系，掌握各种语言指令的语义和表达方式。当模型在机器人操作任务中遇到类似物体或语言指令时，就能利用在通用视觉 - 语言数据上学到的知识，更好地理解任务要求，生成准确动作。如面对 “将红色杯子放到蓝色盘子旁边” 的指令，模型可凭借所学颜色、物体类别和位置关系等知识，准确识别红色杯子和蓝色盘子，并规划合理动作路径完成任务。

机器人规划数据包含机器人在不同任务和场景下的动作规划信息，反映机器人实际操作中的决策过程和经验。通过学习机器人规划数据，模型可了解如何根据环境信息和任务目标生成有效的动作策略，提高自身动作规划能力。训练中，模型能学习不同任务的优先级、动作顺序和时机等重要信息，在实际应用中更灵活地应对各种任务需求。例如，在复杂机器人操作场景中，模型可依据从机器人规划数据中学到的经验，合理安排动作顺序，避免碰撞和错误操作，提高任务执行的效率和安全性。

为实现与 VLM 数据的联合训练，需设计合理的训练策略和数据融合方式。可以将不同类型的数据按一定比例混合，然后在混合数据集上训练；也可采用多阶段训练方式，先在通用视觉 - 语言数据上预训练，使模型学习基本的视觉和语言知识，再在机器人规划数据和机器人操作数据上微调，使模型适应具体的机器人任务。通过这些策略，能充分利用不同类型数据的优势，提高模型的性能和知识迁移能力。

5.2 知识隔离与梯度流控制

5.2.1 知识隔离的原理与实现

知识隔离是解决 VLA 模型训练中知识迁移和训练动态问题的关键技术，其核心思想是使用离散化动作微调 VLM 主干网络，同时使动作专家适应生成连续动作（例如通过流匹配或扩散），但不将其梯度传播回 VLM 主干网络。这一设计的目的是避免动作专家新初始化的权重对预训练的 VLM 主干网络产生干扰，从而使 VLM 能够更好地保留和利用预训练的知识。

在实现知识隔离时，离散动作 tokens 发挥了重要作用。它们提供了一种替代学习信号，该信号不受动作专家未初始化权重的影响。在训练过程中，VLM 主干网络根据离散动作 tokens 进行微调，学习如何将语言指令和视觉信息转化为合适的离散动作表示。由于离散动作 tokens 的学习信号稳定，不受动作专家梯度的干扰，VLM 主干网络能够更有效地学习到适合机器人控制的表示。在机器人执行任务时，VLM 主干网络可以根据输入的语言指令和视觉信息，准确地生成离散动作 token 序列，为后续的动作生成提供指导。

动作专家则专注于生成连续动作。通过流匹配或扩散等技术，动作专家能够根据 VLM 主干网络输出的离散动作表示，生成精确的连续动作序列。在这个过程中，动作专家的梯度不会传播回 VLM 主干网络，从而避免了对预训练权重的干扰。以机器人手臂动作为例，动作专家可以根据 VLM 主干网络输出的离散动作 token，如 “抬起手臂”“弯曲手腕” 等，通过流匹配算法生成具体的关节角度和运动轨迹，实现精确的动作控制。

为了实现知识隔离，需要对模型的架构和训练过程进行相应的调整。在架构方面，需要明确划分 VLM 主干网络和动作专家的职责和连接方式，确保两者之间的信息传递和梯度流动能够得到有效控制。在训练过程中，需要采用合适的优化算法和训练策略，使 VLM 主干网络和动作专家能够协同工作，同时保持各自的独立性。可以分别对 VLM 主干网络和动作专家进行优化，使用不同的学习率和优化器，以确保它们能够在不同的参数空间中进行有效的学习。

5.2.2 梯度流控制的方法与效果

梯度流控制是知识隔离技术的重要组成部分，通过阻止从动作专家到主干网络的梯度流，能够有效避免动作专家新初始化的权重对预训练的 VLM 主干网络的干扰，从而改善模型的训练动态和性能。

在具体实现中，通过修改注意层来限制梯度流。对于单头注意机制，注意运算可以写成\(P = softmax Q(X)K(X)^T + A\)，其中\(X\)为注意层的输入，\(Q\)和\(K\)分别为注意查询（\(Q\)）和键（\(K\)）投影，\(A\)为注意掩码，\(softmax\)为逐行 softmax。为了限制梯度流，实现\(softmax\)计算时，可以使用停止梯度算子（\(s_g\)）。具体来说，将注意概率分解为来自 VLM 主干网的特征关注主干网特征\(P_{bb}\)的概率、动作专家特征关注主干网特征\(P_{ab}\)的概率，以及动作专家特征关注其他动作专家特征\(P_{aa}\)的概率。通过对这些概率进行控制，如设置\(P_{ab}\)的梯度为 0，即使用停止梯度算子\(s_g\)，可以阻止从动作专家到主干网络的梯度流。

这种梯度流控制方法带来了多方面的好处。它使得扩散损失项适用于一组独立的权重，即动作专家的权重。这意味着动作专家可以在不影响 VLM 主干网络的情况下，独立地学习和优化，从而提高动作生成的准确性和稳定性。在机器人执行精细操作任务时，动作专家能够根据任务需求，准确地生成连续动作，而不会因为梯度干扰导致动作偏差。梯度流控制有助于维护 VLM 主干网络的预训练知识。由于动作专家的梯度不会传播回 VLM 主干网络，预训练的权重能够保持相对稳定，使得 VLM 主干网络能够更好地发挥其在语言理解和知识迁移方面的优势。在面对复杂的语言指令时，VLM 主干网络能够准确地理解指令的含义，并将相关知识传递给动作专家，从而实现更智能的动作决策。

5.3 实验设置与结果分析

5.3.1 实验环境与数据集

为了验证提出的改进策略的有效性，进行了一系列严谨的实验。实验环境的搭建对实验结果的准确性和可靠性至关重要。在硬件方面，采用了高性能的计算设备，如配备 RTX4090 GPU 的工作站，以满足模型训练和推理对计算资源的高需求。RTX4090 GPU 具有强大的并行计算能力，能够显著加速模型的训练过程，减少训练时间。还配备了大容量的内存和高速存储设备，以确保数据的快速读取和存储，提高实验效率。

在软件框架方面，选择了广泛应用且性能优越的深度学习框架，如 PyTorch。PyTorch 具有动态计算图的特性，使得模型的调试和开发更加方便，能够快速实现各种复杂的模型结构和训练算法。它还提供了丰富的工具和库，如优化器、损失函数、数据加载器等，方便研究人员进行模型训练和评估。

实验中采用了多种数据集，包括机器人操作数据集和通用视觉 - 语言数据集。机器人操作数据集包含了机器人在不同场景下执行各种任务的动作数据、视觉观测数据和语言指令数据。这些数据来自实际的机器人实验和模拟环境，涵盖了多种任务类型，如物体抓取、放置、装配等，以及不同的场景，如室内家居环境、工业生产环境等。通过使用这些数据集，能够测试模型在实际机器人操作任务中的性能，评估模型对不同任务和场景的适应性。在测试模型在物体抓取任务中的性能时，可以使用包含不同形状、大小和材质物体的抓取数据，观察模型能否准确地识别物体并生成合适的抓取动作。

通用视觉 - 语言数据集则包含了大量的图像和文本对，这些数据涵盖了各种语义和场景。在这些数据集上进行训练，能够增强模型的视觉理解和语言处理能力，提高模型的知识储备和泛化能力。使用包含各种自然场景图像和对应文本描述的数据集，让模型学习不同场景下的视觉特征和语言表达，从而在机器人操作任务中，能够更好地理解环境信息和语言指令。

5.3.2 对比基线与消融模型

为了准确评估改进策略的效果，精心选择了多个基线和消融模型进行对比。基线模型是当前 VLA 领域中具有代表性的模型，它们代表了现有的技术水平。π0 使用动作专家和连续动作，并且仅使用机器人数据进行训练，它在连续动作生成方面具有一定的优势，但在知识迁移和训练速度方面存在不足。π0 - FAST 是一个带有 token 压缩的自回归 VLA，仅使用机器人数据进行训练，它通过 token 压缩提高了推理速度，但离散化动作导致分辨率受限，影响了动作控制的精度。OpenVLA - OFT 修改标准自回归 VLA，使其使用双向注意机制进行并行解码，采用这种方法，但不使用 FiLM 并保留文本状态，旨在提高自回归 VLA 的推理效率。

消融模型则是在提出的模型基础上，通过去除某些关键组件或策略，来分析这些组件或策略对模型性能的影响。联合训练与本文模型相同，但没有停止梯度，用于分析知识隔离中梯度控制的作用。不使用 VLM 数据的联合训练，这种消融方法从提出的方法中移除停止梯度和 VLM 数据的协同训练，也可以被认为是 HybridVLA 的一个变型，在 HybridVLA 中，同时对两种动作表示进行训练，但与 HybridVLA 相比，自回归 token 无法关注流匹配输入，用于研究与 VLM 数据联合训练对模型性能的影响。

通过与这些基线和消融模型进行对比，可以全面地评估提出的改进策略在训练速度、知识迁移能力、动作控制精度等方面的优势。在训练速度方面，观察不同模型在相同训练数据和硬件环境下的训练时间，比较它们的收敛速度和训练效率。在知识迁移能力方面，通过在不同任务和场景下的测试，评估模型对新任务和新环境的适应能力，以及对预训练知识的利用程度。在动作控制精度方面，使用动作误差指标，如均方误差（MSE）等，来衡量模型生成的动作与真实动作之间的差异，评估模型的动作控制准确性。

5.3.3 实验结果与讨论

实验结果有力地表明，提出的改进策略在多个关键方面显著提升了 VLA 模型的性能。在训练速度上，采用联合离散 / 连续动作预测的协同训练方法，结合与 VLM 数据的联合训练，使得模型能够更快地收敛。通过同时使用 token 预测损失和流匹配损失的组合进行训练，模型可以从不同模态的信息中学习，加速了参数的更新和优化过程。在与 VLM 数据的联合训练中，模型接触到更广泛的知识，提高了学习效率，减少了训练所需的时间。在相同的训练轮数下，改进后的模型比基线模型 π0 和 π0 - FAST 的训练时间缩短了 [X]%，收敛速度明显加快。

在知识迁移能力方面，改进后的模型表现出色。通过与 VLM 数据的联合训练，模型能够更好地保留和利用预训练的知识，在面对新的任务和场景时，能够快速适应并准确执行任务。在实验中，将模型应用于从未见过的机器人操作场景，改进后的模型能够根据预训练学到的知识，准确理解语言指令，并生成合理的动作序列，完成任务的成功率比基线模型提高了 [X]%。这表明改进策略有效地增强了模型从语言到策略的知识迁移能力，使模型能够更好地应对复杂多变的实际应用场景。

在动作控制精度上，知识隔离技术和梯度流控制方法发挥了重要作用。通过阻止从动作专家到主干网络的梯度流，避免了动作专家新初始化的权重对预训练的 VLM 主干网络的干扰，使得动作专家能够更准确地生成连续动作。在机器人执行精细操作任务时，改进后的模型生成的动作误差明显降低，均方误差（MSE）比基线模型降低了 [X]，能够更精确地控制机器人的动作，提高了任务执行的质量和效率。

通过对实验结果的深入分析，可以得出结论：提出的改进策略有效地解决了当前 VLA 模型在训练速度、知识迁移和连续动作输出等方面存在的问题。联合训练方法增强了模型的学习能力和知识迁移能力，知识隔离技术和梯度流控制方法提高了模型的稳定性和动作控制精度。这些改进策略为 VLA 模型的进一步发展和应用提供了有力的支持，有望推动具身智能在实际场景中的广泛应用。然而，实验结果也显示，在某些复杂场景下，模型仍存在一定的局限性，如对极端环境条件的适应性不足等。这为未来的研究指明了方向，需要进一步改进模型架构和训练方法，以提高模型的泛化能力和鲁棒性。

六、结论与展望

6.1 研究成果总结

本文围绕视觉 - 语言 - 动作（VLA）模型展开深入研究，成功解决了当前 VLA 模型在训练速度、知识迁移和连续动作输出等方面存在的关键问题，取得了一系列具有重要理论和实践意义的研究成果。

在训练速度方面，通过提出联合离散 / 连续动作预测的协同训练方法，结合与视觉 - 语言模型（VLM）数据的联合训练，显著提升了模型的训练效率。联合训练使模型能够同时学习不同模态的信息，加速了参数的更新和优化过程。在与 VLM 数据的联合训练中，模型接触到更广泛的知识，提高了学习效率，减少了训练所需的时间。实验结果表明，在相同的训练轮数下，改进后的模型比基线模型 π0 和 π0 - FAST 的训练时间缩短了 [X]%，收敛速度明显加快，为 VLA 模型的快速训练提供了有效途径。

在知识迁移能力方面，改进后的模型表现出色。通过与 VLM 数据的联合训练，模型能够更好地保留和利用预训练的知识，在面对新的任务和场景时，能够快速适应并准确执行任务。在实验中，将模型应用于从未见过的机器人操作场景，改进后的模型能够根据预训练学到的知识，准确理解语言指令，并生成合理的动作序列，完成任务的成功率比基线模型提高了 [X]% 。这表明改进策略有效地增强了模型从语言到策略的知识迁移能力，使模型能够更好地应对复杂多变的实际应用场景。

本文提出的改进策略，包括联合训练和知识隔离技术，为 VLA 模型的发展做出了重要贡献。这些策略不仅解决了当前 VLA 模型存在的问题，还为其在实际场景中的广泛应用奠定了坚实基础。通过实验验证，充分证明了改进策略的有效性和优越性，为未来 VLA 模型的研究和应用提供了重要的参考和借鉴。

6.2 未来研究方向

尽管本文在 VLA 模型研究方面取得了显著成果，但未来仍有许多研究方向值得深入探索。

在模型架构优化方面，虽然当前的改进策略提升了模型性能，但仍有进一步优化的空间。未来可以探索更加高效的多模态融合架构，以更好地整合视觉、语言和动作信息。可以研究如何进一步改进 Transformer 架构，使其在处理多模态信息时更加高效，减少计算资源的消耗，提高模型的运行效率。还可以探索引入新的神经网络结构或模块，如基于注意力机制的改进模块，以增强模型对不同模态信息的理解和处理能力。此外，随着硬件技术的不断发展，研究如何使 VLA 模型更好地适应新型硬件架构，如量子计算机或专用人工智能芯片，也是未来的一个重要方向。

在拓展应用场景方面，VLA 模型目前在机器人操作和智能驾驶等领域取得了一定进展，但仍有许多潜在的应用场景有待开发。在医疗领域，VLA 模型可以用于辅助手术机器人，根据医生的语言指令和手术部位的视觉信息，精确控制手术器械，提高手术的准确性和安全性。在教育领域，VLA 模型可以应用于智能教育机器人，根据学生的学习情况和教师的指令，提供个性化的学习辅导和互动，增强学习效果。在智能家居领域，VLA 模型可以使家居设备更好地理解用户的语言指令和环境信息，实现更加智能化的家居控制，提升用户的生活体验。未来需要进一步研究如何将 VLA 模型应用于这些领域，并解决在应用过程中可能遇到的问题，如数据隐私保护、模型安全性等。

在解决伦理和安全问题方面，随着 VLA 模型在实际应用中的普及，伦理和安全问题变得日益重要。在机器人应用中，需要确保 VLA 模型的决策和动作符合伦理道德规范，避免对人类造成伤害。在智能驾驶领域，VLA 模型的安全性直接关系到乘客和行人的生命安全，需要研究如何提高模型的可靠性和稳定性，防止因模型故障或错误决策导致交通事故。未来需要建立完善的伦理和安全评估体系，对 VLA 模型的设计、训练和应用进行严格的审查和监督，确保其符合伦理和安全标准。还需要研究如何在模型中融入伦理和安全约束，使模型能够自动判断和避免危险行为。

在跨领域知识融合方面，VLA 模型可以与其他领域的技术和知识进行更深入的融合，以提升其性能和应用能力。与认知科学相结合，借鉴人类的认知模式和学习机制，使 VLA 模型能够更好地理解和处理复杂的任务。与物理学、生物学等学科的知识融合，为 VLA 模型提供更丰富的先验知识，使其在处理实际问题时更加智能和灵活。未来需要开展跨学科研究，促进 VLA 模型与其他领域的深度融合，推动其向更高水平发展。

未来 VLA 模型的研究具有广阔的前景和丰富的可能性。通过不断探索和创新，有望进一步提升 VLA 模型的性能和应用范围，为实现具身智能和推动人工智能技术的发展做出更大的贡献。

Airking Robots

北京艾科伯特科技有限公司，是专注协作机器人和移动机器人的技术公司，Airking Robots——艾科伯特立足于航空/航天，专注于机器人智能制造方向，Airking Robots是优傲机器人，Robotiq等协作机器人方向中国区域金牌提供商

商务联系：

更多案例请关注公众号：

【声明】内容源于网络

AirkingRobots艾科伯特科技

北京艾科伯特科技有限公司(Airking Robotics)是UR机器人，Robotiq，Robosense等机器人领域的金牌授权商，我们面向教育行业，航空航天，工业，生命科学等领域，致力于让协作机器人、移动机器人实现人机交互。

内容 78

粉丝 0

AirkingRobots艾科伯特科技北京艾科伯特科技有限公司(Airking Robotics)是UR机器人，Robotiq，Robosense等机器人领域的金牌授权商，我们面向教育行业，航空航天，工业，生命科学等领域，致力于让协作机器人、移动机器人实现人机交互。

总阅读6

粉丝0

内容78