25年10月来自中科院自动化所和深圳引望智能公司的论文“DRIVEVLA-W0: WORLD MODELS AMPLIFY DATA SCALING LAW IN AUTONOMOUS DRIVING”。
在大规模数据上扩展视觉-语言-动作(VLA)模型为实现更通用的驾驶智能提供一条有前景的途径。然而,VLA模型受到“监督不足”的限制:庞大的模型容量仅由稀疏的低维动作进行监督,导致其大部分表征能力未能得到充分利用。为了解决这个问题,DriveVLA-W0 是一个利用世界建模来预测未来图像的训练范式。该任务生成一个密集的自监督信号,迫使模型学习驾驶环境的底层动态。通过将其应用于两种主要的VLA原型来展示该范式的通用性:一种是用于使用离散视觉 token 的VLA的自回归世界模型,另一种是用于处理连续视觉特征的VLA的扩散世界模型。基于从世界建模中学习的丰富表征,引入一个轻量级的动作专家来解决实时部署中的推理延迟问题。在 NAVSIM v1/v2 基准测试和 680 倍规模的内部数据集上进行的大量实验表明,DriveVLA-W0 的性能显著优于 BEV 和 VLA 基线。至关重要的是,它放大数据规模化规律,表明性能提升会随着训练数据集规模的增加而加速。
为了解决监督不足的问题,本文提出一种训练范式,该范式利用世界建模(Li et al., 2024a; Wang et al., 2025; Cen et al., 2025; Chen et al., 2024)作为一种强大的自监督形式来补充稀疏的动作信号。通过让模型预测未来的图像,在每个时间步生成密集且丰富的监督信号。这一目标迫使模型学习环境的底层动态,并构建丰富且具有预测性的世界表示。为了验证方法的有效性,将其应用于两种主流的视觉语言架构(VLA)系列,这两种架构的主要区别在于它们的视觉表示方式:离散token与连续特征。对于将图像表示为离散视觉token的VLA,世界建模是一种自然的扩展。其提出一种自回归世界模型来预测未来图像的离散视觉token序列。对于基于连续特征的 VLA 来说,这项任务更具挑战性,因为它们缺乏视觉词汇,导致直接预测下一个token的方法不可行。为了弥补这一缺陷,引入一个扩散世界模型,该模型根据当前帧产生的视觉和动作特征生成未来的图像像素。
其在多种数据规模上验证世界建模方法,涵盖从学术基准到海量内部数据集。首先,在学术基准上进行的扩展实验表明,世界建模对于泛化至关重要,因为它能够学习稳健的视觉模式,而不会过拟合特定数据集的动作模式。为了研究真正的规模化规律,利用一个庞大的 7000 万帧内部数据集,如图所示。这证实了其核心假设:世界建模放大了数据规模化规律。这一优势源于未来帧预测提供的密集视觉监督,从而产生了一种定性差距,这种差距无法通过单纯扩大纯动作数据的数量来弥补。最后,为了实现实时部署,引入一个基于 MoE 的轻量级动作专家。该专家将动作生成与大型 VLA 主干分离,将推理延迟降低至基线 VLA 的 63.1%,并创建一个高效的测试平台,用于大规模研究不同的动作解码器。
VLA 基线
视觉-语言-动作 (VLA) 基线处理语言指令序列 (L_t)、前视图像序列 (V_t) 和历史动作序列 (A_t−1)。为了确保其广泛的适用性,基于两种主流的 VLM 范式构建变型:VLA (V_Q),它将图像量化为离散的视觉token,用于 Emu3 风格的主干网络;以及 VLA (ViT),它提取连续特征,用于 Qwen2.5-VL 风格的主干网络。
输入 token 化。高级驾驶语言指令 (L_t) 使用 VLM 的原生 token 化器进行处理。对于历史动作,用 FAST token化器 (Pertsch,2025) 将连续的路径点轨迹转换为离散 token 序列,记为 A_t−1。
VLM 主干网络。在每个时间步 t,按照 Wang et al. (2025) 和 Fan et al. (2025) 的方法,通过在 H 个时间步的历史中连接多模态块,形成一个深度交织的输入序列 S_t:S_t = [L_t−H, V_t−H, A_t−H−1, ...,L_t, V_t, A_t−1]。该序列由 VLM 主干网络进行自回归处理,为此选择两个代表性模型:Emu3 (8B) (Wang et al., 2024) 用于处理离散视觉表征,Qwen2.5-VL (7B) (Bai et al., 2025) 用于处理连续特征,并使用因果注意掩码。VLM 主干网络输出最后一层的隐状态,然后根据其各自的模态将其拆分为语言 (F^L^_t)、视觉 (F^V^_t) 和动作 (F^A^_t) 特征。
动作预测。在训练过程中,用标准交叉熵损失函数 L_action 优化模型,使其能够预测真实动作 token 序列 A_t =(a_1, ..., a_M)。
在推理过程中,训练好的模型会自回归地生成一系列以上下文 S_t 为条件的动作token。这些token随后由 FAST 去 token 化器 (Pertsch et al., 2025) 转换回连续的航点轨迹。
世界建模
现有的 VLA 流程通常仅监督模型的动作。这会产生稀疏的监督信号,将高维感知输入压缩成少量低维控制信号,从而导致“监督不足”。为了解决这个问题,引入世界建模作为一个强大的自监督目标。针对两种 VLA 范式分别实现了不同的世界模型。对于配备离散视觉词汇的视觉-语言架构(VLA),将世界模型构建为一个下一 token 预测任务,从而创建增强现实世界模型(AR World Model)。相反,对于基于连续视觉特征的VLA,引入扩散世界模型(Diffusion World Model),以在连续潜空间中生成未来图像。
增强现实世界模型。增强现实世界模型通过自回归生成离散视觉 token 序列来预测当前视觉场景,该序列以过去的观察和动作为条件(如图(a)所示)。
训练。该模型学习自回归地生成当前图像的视觉 token 序列V_t = (v_1, ..., v_N),该序列以先前的上下文S_<V_t为条件。该过程通过最小化下一 token 预测损失L_WM-AR进行优化。
将这个完整的框架称为DriveVLA-W0(VQ)。它通过优化动作模型和增强现实(AR)世界模型损失的加权和进行联合训练:L_Total = L_Action + α L_WM-AR,其中 α 为平衡系数。
推理。虽然为了确保低延迟,推理过程中通常会绕过显式生成视觉 token 的步骤,但这种能力对于可视化仍然很有价值。为了生成图像,模型会自回归地采样一系列视觉 tokens,然后将这些 tokens 传递给 MoVQGAN(Zheng 等人,2022)解码器以渲染最终图像 Iˆ_t。
扩散世界模型。与基于 VQ 的对应模型不同,VLA(ViT)模型缺乏适用于下一个 token 预测的离散视觉词汇表。因此,引入一种扩散世界模型,它通过训练一个潜扩散模型(Rombach,2021)来提供密集监督,从而根据 VLA 丰富的输出特征(F^V^_t,F^A^_t)生成未来图像,如上图(b)所示。选择预测未来帧(I_t+1)至关重要:由于模型同时以所有当前特征为条件,因此预测未来对于学习预测动态至关重要,而不仅仅是执行重建任务。
训练。该框架学习根据 VLA 的当前视觉和动作特征(F^V^_t 和 F^A^_t)预测未来的视觉场景(I_t+1)。按照标准的潜扩散设置,该模型被训练来对未来图像的潜表示噪声版进行去噪。这通过均方误差 (MSE) 目标函数 L_WM-Diff 进行优化,其中 z_t+1 是未来图像 I_t+1 的潜值,ε ∼ N(0,I) 是采样高斯噪声,k 是随机扩散时间步长,εˆ 是去噪网络,经过训练可从带噪声的潜值 z_t+1,k 预测噪声。此整体框架称为 DriveVLA-W0 (ViT)。它通过优化一个联合目标函数进行端到端训练,该联合目标函数结合动作预测损失和扩散世界模型损失:L_Total = L_Action + β L_WM-Diff,其中 β 为平衡系数。
推理。与 AR 模型类似,在驱动推理过程中会绕过扩散过程,以确保实时性能。对于定性分析,可以通过运行逆扩散过程来生成未来的帧,该过程从随机噪声开始,并以特征 F^V^_t 和 F^A^_t 为条件,从而生成预测图像 Iˆ。
动作专家
混合专家架构。(Black;Intelligence,2025)虽然大型 VLA 主干网络在表征学习方面表现出色,但其规模对于实时控制而言过于庞大。为了解决这个问题,引入一个轻量级的动作专家(500M),它与主 VLA 专家(完整 VLA 主干网络)在混合专家(MoE)架构中协同工作。动作专家与 VLA 专家共享类似的 Transformer 模块结构,但其隐维度要小得多。这种架构上的相似性使得通过联合注意机制能够实现深度且高效的信息融合,如图 (a) 所示。在该设置中,两个专家首先计算各自的 Q 矩阵、K 矩阵和 V 矩阵。然后,这些矩阵沿 token 序列维度连接起来,生成联合注意操作的单一输入集 Q,K,V。
如上图所示,由此产生的注意输出被拆分并路由回各个对应的专家。这种方法使得 VLA 丰富的表征与动作专家的专业上下文能够紧密、对称地集成到单个高效的计算中。
这种高效的 MoE 架构也为系统地研究三种不同的动作解码策略提供一个理想的测试平台:基于查询的专家、自回归专家和流匹配专家,如上图 (b-d) 所示。这些变型的一个关键共同点是预填充先前动作的特征 (A_t−1),这为当前决策提供了强大的时间先验。
基于查询的动作专家。该专家使用一组可学习的动作查询,这些查询通过联合注意与 VLA 的多模态上下文进行交互。然后,更新后的查询由 MLP 头进行投影,以直接回归连续的路径点轨迹。该模型通过最小化预测轨迹和真实轨迹之间的 L1 距离进行优化。
自回归动作专家。该专家通过自回归预测一系列离散 token 来生成动作。其训练目标和公式与用于 VLA 基线的相同,即最小化标准交叉熵损失。
流匹配动作专家。与自回归方法的离散特性不同,还实现一种基于流匹配的连续动作生成方法。该方法学习一个条件向量场 v_φ,该向量场定义一条从简单噪声分布到真实世界驾驶动作复杂分布的直接“路径”。在训练过程中,定义一条随机噪声样本与真实动作之间的简单直线轨迹(Liu,2022)。然后,通过均方误差损失优化模型,以预测在多模态上下文 c_t 条件下,与该轨迹在每个点对齐的向量场 v_φ。对于推理,只需从一个新的噪声样本开始,并使用数值常微分方程求解器,沿着学习的向量场进行固定步数的迭代。该过程确定性地将噪声转换为位于学习数据流形上的精确、连续的动作。
实验细节。
数据集
NAVSIM。用源自 OpenScene(Contributors,2023)的 NAVSIM(Dauner,2024)基准测试来评估安全关键场景下的性能。
NAVSIM v1 指标包括无责任碰撞 (NC)、可行驶区域合规性 (DAC)、碰撞时间 (TTC)、舒适度 (C) 和自我进度 (EP)。NAVSIM 使用预测驾驶员模型评分 (PDMS) 来评估模型性能:PDMS = NC × DAC × (5×EP + 5×TTC + 2×C)/12。
NAVSIM v2(Cao,2025)包含多个组件,这些组件被分为惩罚项或加权子评分。关键指标包括无过错碰撞 (NC)、可驾驶区域合规性 (DAC)、行驶方向合规性 (DDC)、交通信号灯合规性 (TLC)、自我进步 (EP)、碰撞时间 (TTC)、车道保持 (LK)、历史舒适度 (HC) 和扩展舒适度 (EC)。NAVSIM v2 使用扩展预测驾驶员模型评分 (EPDMS) 来评估模型性能。
室内数据集。为了测试数据在学术基准之外的可扩展性,用海量室内数据集进行训练和评估。训练集包含来自超过 100 万个独特片段的 7000 万帧数据。该数据集经过精心设计,涵盖了广泛的驾驶场景,并保持了多样性和均衡性,同时显著丰富具有挑战性和关键安全性的事件。测试集包含 100 个具有挑战性的场景。用 3 秒内 6 个航点的未来轨迹(2 Hz)的平均位移误差 (ADE) 来评估轨迹,并使用碰撞率来评估安全性。用与 NAVSIM 基准测试中的无过错碰撞 (NC) 指标相同的方法来计算碰撞率。
实施细节
两阶段训练范式。模型采用两阶段范式进行训练,旨在首先学习丰富的世界表征,然后专注于动作生成。在第一阶段,用 6VA 序列配置对 VLA 主干网络进行预训练。该模型采用联合目标函数进行优化,结合世界模型损失和动作预测损失。在第二阶段,将模型与动作专家集成。此时,VLA 主干网络处理 2VA 输入序列。虽然并未冻结 VLA 主干网络,但该模型仅由动作专家部分的动作损失进行监督。
NAVSIM。对于 NAVSIM 基准测试,模型首先在 NuPlan(Caesar,2021)上预训练 8k 步,然后在 NAVSIM 上进行 4k 步微调,处理 256x144 的图像。训练在 8 个 NVIDIA L20 GPU 上进行,全局批大小为 48。用 AdamW 优化器,采用余弦学习率调度,初始学习率为 2e^−4^,并使用 bfloat16 混合精度。对于消融实验,选择 DriveVLA-W0 (VQ) 作为默认模型,因为它架构简单。
室内数据集。对于在室内数据集上进行的大规模实验,模型预训练 5 万步,并使用相同的数据进行 3 万步的微调。本次训练使用 64 块 GPU 集群,全局批次大小为 256。优化器和学习率策略与 NAVSIM 设置保持一致。
重实现的 TransFuser。为了给室内数据集提供坚实的基准,调整并重新实现著名的 TransFuser (Prakash et al., 2021) 架构。为了与单摄像头设置进行公平比较,修改 Latent-TransFuser(TransFuser 的纯图像变型),使其处理单个正面图像,而不是其原始的多视角输入。为了研究模型大小的影响,实现两个版本:一个 50M 参数模型和一个 7B 参数模型。较小的 TransFuser-50M 使用标准的 ResNet-34 主干网络。较大的 TransFuser-7B 采用 ViT-7B 骨干网络,并使用来自 DINOv3 的预训练权重进行初始化(Siméoni,2025)。

