

VLA 模型的泛化能力超乎你的想象：换个新相机和视角推理也能轻松搞定！

具身智能之心

2025-12-04

点击下方卡片，关注“具身智能之心”公众号

作者丨 Weiqi Li等

编辑丨具身智能之心

本文只做学术分享，如有侵权，联系删文

>>点击进入→具身智能之心技术交流群

更多干货，欢迎加入国内首个具身智能全栈学习社区：具身智能之心知识星球(戳我)，这里包含所有你想要的。

VLA模型在分布内任务中表现优异，但在新摄像机视角和视觉扰动下性能急剧下降。研究表明，这种脆弱性主要源于空间建模的对齐偏差，而非物理建模问题。

为解决此问题，中山大学等机构研究人员提出了一种单次自适应框架，通过轻量级可学习的参数更新来重新校准视觉表征。首先提出的特征token调制（FTM）方法，对视觉token进行全局仿射变换，仅用4K参数就将Libero数据集的视角准确率从48.5%提升至87.1%。在此基础上，特征线性自适应（FLA）方法进一步为ViT编码器引入低秩更新，以470万参数实现了90.8%的成功率，在远低于LoRA规模微调成本的情况下达到同等效果。这些结果表明，预训练VLA模型中存在大量未被挖掘的鲁棒性潜力，并且针对性、极小化的视觉自适应足以恢复模型的视角泛化能力。

论文名称：VLA Models Are More Generalizable Than You Think: Revisiting Physical and Spatial Modeling
论文链接：https://arxiv.org/pdf/2512.02902

VLA模型的泛化性困境

VLA模型是具身智能领域的核心技术，它将预训练的视觉-语言模型扩展到机器人控制任务中，能够通过视觉观测和自然语言指令生成机器人的动作序列，实现多样化的操作任务（如抓取、堆叠、开关设备等）。近年来，RT2、Pi0、PaLM-E、Octo等代表性VLA模型在大规模机器人数据集预训练后，展现出了优秀的域内性能，成为通用机器人控制的重要方向。

然而，VLA模型的鲁棒性与泛化性始终是落地的关键瓶颈。尽管在训练数据中表现出色，当面临未见过的相机视角、光照变化、背景纹理扰动或图像噪声时，模型性能会急剧下降。这种“脆弱性”源于现实世界视觉环境的动态性与不可预测性，而现有方法难以在不依赖大规模数据或复杂架构的前提下解决这一问题。当下提升VLA模型鲁棒性的方法主要分为两类：

数据中心范式：通过扩大视觉多样性（如Libero-Plus多视角数据集）提升模型适应性，但数据采集成本高、耗时费力，难以在真实场景中持续扩展。
表示中心范式：通过几何一致性学习或3D感知架构增强视角不变性，但这类方法对背景杂乱、光照变化等任务无关视觉因素仍敏感，且未明确区分性能退化的核心原因是空间建模还是物理建模。

此外，参数高效微调（PEFT）虽在大语言模型和多模态模型中广泛应用，但在具身AI中多针对语言或策略组件优化，极少直接对视觉模块进行轻量级适配，导致视觉通路的空间表示失准问题始终未得到有效解决。

空间建模是VLA泛化的核心瓶颈

本框架核心创新在于将VLA模型解耦为空间建模与物理建模两个独立组件，并通过理论分析与实验验证，指出视角变化等视觉扰动下的性能退化主要源于空间建模的失准，而非物理建模的缺陷。

1）空间建模与物理建模的解耦定义

空间建模（Spatial Modeling）：由视觉编码器（如ViT）实现，负责从图像中构建物体间的空间关系（位置、方向、接触、遮挡等），生成下游任务所需的空间表示。视角变化会直接改变场景的空间配置，导致空间表示失真。
物理建模（Physical Modeling）：由视觉-语言模型（VLM）和动作专家（Action Expert）实现，整合任务语言、空间表示和动作历史，进行高层推理并生成可执行的动作序列。其核心是任务语义与动作动力学的映射，视角变化并不会改变任务本身的语义与动作逻辑。

这一解耦的关键结论是：VLA模型在视角扰动下的失效，本质是空间建模输出的视觉嵌入存在空间畸变，导致物理建模模块接收到错误的空间信息，而非物理建模的推理与控制能力不足。

2）理论假设的验证逻辑

通过嵌入漂移分析验证了上述假设：在零样本场景下，新视角的视觉token与训练视角的视觉token在嵌入空间中形成完全分离的聚类，存在严重的域间隙；而通过轻量级适配后，新视角的视觉token能与训练视角的token对齐，模型性能随之恢复。这一现象直接证明了空间建模失准是性能退化的主因。

方法设计：轻量级单次适配框架

针对空间建模的失准问题，这里提出了单次适配（One-Shot Adaptation）框架，包含两种轻量级机制：Feature Token Modulation（FTM）和Feature Linear Adaptation（FLA），仅通过极少的参数更新即可校准视觉表示，恢复模型的泛化性。

1）基础框架：π0.5 VLA策略

这里以为基础VLA策略，该策略将视觉输入（图像/多视角图像）和语言指令作为观测，自回归生成离散动作token。其架构分为三部分：

视觉编码器：将图像映射为token嵌入；
语言编码器：将文本映射为嵌入；
多模态Transformer解码器：结合视觉与语言嵌入，预测动作token。

适配过程中，保持语言编码器和解码器固定，仅对视觉模块的表示进行轻量级调整，形式化表示为：

其中为适配变换，为少量可学习参数。

2）FTM）：视觉token的全局仿射变换

FTM是一种极简的适配机制，核心通过两个可学习参数向量对视觉token嵌入进行全局仿射变换，公式为：

其中是视觉编码器输出的token嵌入，分别为缩放和偏移参数，仅引入4K可训练参数（因）。

FTM的本质是对视觉嵌入空间进行“重新中心化”和“重新缩放”，修正由视角变化导致的特征分布畸变。尽管参数极少，FTM仍能将Libero基准的视角准确率从48.5%提升至87.1%，证明了即使是最小程度的token级调制，也能大幅恢复空间建模的准确性。

3）FLA：ViT编码器的低秩更新

在FTM的基础上，FLA进一步对ViT编码器的线性层进行低秩适配（LoRA），通过低秩分解更新线性变换矩阵：

其中为冻结的预训练权重，和为可学习的低秩矩阵（）。

FLA仅对SigLIP视觉骨干的线性层进行微调，总参数为4.7M，远低于LoRA全模型微调的467M参数。实验中，FLA将平均成功率提升至90.8%，超越了LoRA微调的90.3%，实现了“以1%的参数达到甚至超越全量微调的性能”。

4）与现有适配方法的对比

论文将FTM/FLA与三种主流适配方法进行了对比：

LoRA微调：需更新数百万参数，计算成本高；
替换视觉backbone：需重新训练模型以对齐新视觉特征与动作Head，耗时且破坏预训练知识；
Prompt学习：通过拼接可学习token实现适配，但对特征的校准能力有限，性能提升幅度低。

相比之下，FTM/FLA聚焦视觉模块的轻量级适配，无需修改模型架构或重新训练，是更高效、更实用的解决方案。

实验设计与结果分析

为验证方法的有效性，构建了Libero-V（Visual）基准，并在多维度实验中对FTM/FLA进行了全面评估。

1）实验基准：Libero-V

Libero-V基于原Libero基准扩展，引入四种受控的视觉扰动：

相机视角变化：模拟不同观测角度的空间畸变；
光照变化：调整漫反射、镜面反射、光源方向等物理属性；
背景纹理扰动：替换场景背景的材质（木材、金属、织物等）；
传感器噪声：注入运动模糊、高斯模糊、雾效等图像退化效果。

该基准为评估VLA模型在视觉分布偏移下的鲁棒性提供了统一框架，且所有实验均采用单次适配（仅需1个人类演示即可适配新视觉域）。

2）基线模型与实验设置

论文以为基础策略，对比了GeoAware-VLA、OpenVLA-OFT、LoRA微调、Prompt学习等基线模型。实验在单张NVIDIA A100 80GB GPU上进行，FTM的可学习参数为4K，FLA为4.7M，训练批次大小为32，采用Adam优化器，训练步数根据方法不同设置为5000步（FTM）和1500步（FLA）。

3）核心实验结果

新相机视角下的性能

在Libero基准的四个子任务套件（Spatial、Object、Goal、Long）中，FLA取得了90.8%的平均成功率，超越了 LoRA微调的90.3%；FTM以87.2%的成功率接近 LoRA微调的83.6%，且仅用4K参数。这一结果证明，针对空间建模的轻量级适配足以恢复模型在新视角下的性能。

此外，随着视角扰动程度从“小”到“大”增加，FLA仍能保持稳定性能（Small:94.6%、Medium:90%、Large:87.9%），远优于GeoAware-VLA、OpenVLA-OFT-m等基线，体现了方法对空间畸变的强鲁棒性。

多视觉扰动下的泛化性

在Libero-V基准的四种视觉扰动中，FLA的平均成功率达**94.8%**，与π₀.₅ LoRA微调的94.6%持平，且在相机视角扰动上表现更优（90.8% vs 90.3%）；FTM以90.5%的成功率远超Prompt学习的75.1%，证明即使是极简的token调制，也能有效应对多样化的视觉扰动。