极市导读
6 篇 NeurIPS’25 自动驾驶新作齐发:从世界模型增强 VLA 数据缩放律、双 Actor 协同-竞争模仿强化学习,到流匹配规划、实时 3D 重建、草图驱动城市场景生成及 VLM 人类对齐评估,一网打尽感知-决策-评测全栈前沿进展。>>加入极市CV技术交流群,走在计算机视觉的最前沿
01 DriveVLA-W0
世界模型增强自动驾驶VLA中的数据缩放定律中国科学院自动化研究所等单位 提出了 DriveVLA-W0 训练范式,通过世界建模预测未来图像提供密集自监督信号,显著增强了 VLA 模型的泛化能力与数据扩展性,在 NAVSIM v1/v2 基准上分别达到 93.0 PDMS 与 86.1 EPDMS,并将推理延迟降至基线 VLA 的 63.1%。
-
论文标题:DriveVLA-W0: World Models Amplify Data Scaling Law in Autonomous Driving -
论文链接:https://arxiv.org/pdf/2510.12796
主要贡献:
-
识别并解决 VLA 模型的 “监督不足” 瓶颈:提出 DriveVLA-W0 训练范式,以未来图像预测为核心的世界建模(World Modeling)提供密集自监督信号,弥补传统 VLA 仅依赖稀疏低维动作监督的缺陷,强制模型学习驾驶环境的底层动态规律;该范式适配两类主流 VLA 架构 —— 针对离散视觉令牌的自回归(AR)世界模型,以及针对连续视觉特征的扩散(Diffusion)世界模型。 -
提出轻量级 MoE 动作专家并揭示解码器性能反转规律:设计 Mixture-of-Experts(MoE)架构的 Action Expert,将推理延迟降至基线 VLA 的 63.1%,满足实时部署需求;以该专家为测试平台,发现动作解码器的性能反转现象 —— 小规模数据集上复杂流匹配解码器占优,而大规模数据下简单自回归解码器表现更优。 -
验证数据缩放律放大效应与基准性能优势:在 NAVSIM v1/v2 基准和 70M 帧大规模内部数据集上,DriveVLA-W0 显著超越 BEV 和 VLA 基线(如 NAVSIM v1 上 PDMS 达 93.0%,单摄像头优于多传感器竞品);关键验证世界建模对数据缩放律的放大作用 —— 数据量增至 70M 帧时,VQ 模型 ADE 降低 28.8%、ViT 模型碰撞率降低 15.9%,性能提升随数据量增加而加速。
算法框架:
实验结果:
可视化:
02 CoIRL-AD
基于潜在世界模型的协同-竞争式模仿-强化学习自动驾驶框架
清华大学、华盛顿大学、北京交通大学、香港理工大学等机构提出了一种竞争性双策略框架CoIRL-AD,将模仿学习与强化学习结合在潜在世界模型中,在nuScenes数据集上碰撞率降低18%,在Navsim基准上PDMS得分达88.2。
-
论文标题:CoIRL-AD: Collaborative-Competitive Imitation-Reinforcement Learning in Latent World Models for Autonomous Driving -
论文链接:https://arxiv.org/abs/2510.12560 -
代码:https://github.com/SEU-zxj/CoIRL-AD
主要贡献:
-
RL 与端到端框架的融合:利用潜在世界模型(Latent World Model)实现基于 “想象” 的模拟,将强化学习(RL)融入端到端自动驾驶框架,无需依赖外部模拟器,解决离线 RL 的场景拓展问题。 -
双策略竞争学习框架:提出 decoupled 双策略(IL Actor + RL Actor)架构,设计基于竞争的学习机制,实现 IL 与 RL 的联合训练与结构化互动,避免梯度冲突的同时促进知识迁移。 -
实验性能突破:在 nuScenes 和 Navsim 数据集上验证,相比基线模型显著降低碰撞率、提升跨场景泛化能力,并改善长尾场景(如高碰撞率、大 L2 误差场景)的性能。
算法框架:
实验结果:
可视化:
03 PAGS
面向动态驾驶场景的优先级自适应GS方法
哈尔滨工业大学、理想等单位提出了Priority-Adaptive Gaussian Splatting (PAGS)框架,通过语义引导的剪枝与正则化以及优先级驱动的渲染,在动态驾驶场景中实现了高质量实时3D重建,在Waymo数据集上达到PSNR 34.63、SSIM 0.933、渲染速度353 FPS,训练时间仅1小时22分钟,显著优于现有方法。
-
论文标题:PAGS: Priority-Adaptive Gaussian Splatting for Dynamic Driving -
论文链接:https://arxiv.org/abs/2510.12282
主要贡献:
-
提出优先级自适应高斯 splatting(PAGS)框架:将任务感知的语义优先级嵌入 3D 重建与渲染流水线,解决现有方法 “语义无关” 导致的资源错配问题,平衡重建保真度与计算成本。 -
设计语义引导的剪枝与正则化策略:基于 “静态语义分数+ 动态梯度贡献分数” 的混合重要性度量,可大幅简化非关键场景元素(如建筑、植被),同时保留车辆、行人等安全关键目标的细粒度细节;辅以自适应随机 dropout(按语义重要性调制 dropout 概率),避免动态目标过拟合。 -
构建优先级驱动的渲染流水线:先通过高语义重要性图元生成粗糙深度图(遮挡物深度预通道),再利用 GPU 硬件加速的 Early-Z 测试剔除遮挡图元,减少昂贵的着色计算,最终将渲染速度提升至 350 FPS 以上,且不损失关键元素感知质量。 -
实验验证优势:在 Waymo 和 KITTI 数据集上,PAGS 不仅实现安全关键目标的更高重建质量(Waymo 数据集 PSNR 34.63、SSIM 0.933),还将训练时间缩短至 1.5 小时左右,同时保持紧凑模型尺寸(530 MB)与低显存占用(6.1 GB),优于 EmerNeRF、StreetGS 等主流方法。
算法框架:
实验结果:
可视化:
04 Flow Planner
基于流匹配的自动驾驶规划与高级交互行为建模
清华大学等机构NeurIPS 2025中稿的工作,本文提出的Flow Planner通过流匹配和交互行为建模技术,在nuPlan Val14基准测试中达到90.43分(首个无需先验知识突破90分的基于学习方法),并在interPlan基准测试中比Diffusion Planner提升8.92分。
-
论文标题:Flow Matching-Based Autonomous Driving Planning with Advanced Interactive Behavior Modeling -
论文链接:https://arxiv.org/abs/2510.11083 -
代码:https://github.com/DiffusionAD/Flow-Planner
主要贡献:
-
数据建模创新:提出细粒度轨迹分词(Fine-grained Trajectory Tokenization),将轨迹分解为含重叠区域的片段,既保留单片段内运动连续性,又通过片段专属 token 实现局部特征提取,解决全轨迹建模复杂度高、时序融合效率低的问题。 -
架构设计优化:构建交互增强的时空融合架构,通过自适应层归一化(adaLN)将车道、邻域智能体、自车轨迹等异质特征投影到统一 latent 空间,结合尺度自适应注意力(Scale-Adaptive Attention)动态调整 token 感受野,有效过滤冗余信息、强化关键交互信息提取。 -
学习机制改进:引入带无分类器引导(Classifier-free Guidance)的流匹配(Flow Matching) 机制,训练时通过伯努利掩码实现有条件 / 无条件分布联合学习,推理时动态重加权邻域智能体交互权重,提升多模态行为生成连贯性;额外引入片段重叠一致性损失,保证轨迹平滑性。 -
性能突破验证:在 nuPlan 数据集上,Val14 基准闭环得分达 90.43,成为首个无需规则型后处理即可突破 90 分的学习型规划方法;在 interPlan 复杂交互数据集上,整体得分超 Diffusion Planner 8.92 分,尤其在行人横穿等难预测场景中表现优异,验证了复杂场景下的交互建模能力。
算法框架:
实验结果:
可视化:
05 CymbaDiff
基于草图的3D语义城市场景结构化空间扩散生成方法西澳大学、阿德莱德大学与墨尔本大学研究团队NeurIPS 2025中稿的工作,本文提出CymbaDiff模型,结合圆柱Mamba结构与空间扩散机制,实现了基于草图与卫星图像的3D语义城市场景生成,在Sketch-based SemanticKITTI上FID达40.74,比现有方法提升约16分
-
论文标题:CymbaDiff: Structured Spatial Diffusion for Sketch-based 3D Semantic Urban Scene Generation -
论文链接:https://arxiv.org/abs/2510.13245 -
代码:https://github.com/Lillian-research-hub/CymbaDiff
主要贡献:
-
提出新研究任务:首次定义 “基于草图的 3D 户外语义场景生成” 任务,通过自由手绘草图与伪标注卫星图像(PSA)实现用户直观交互,减少人工语义标注需求,为城市级仿真、自动驾驶等场景的训练数据生成提供高效方案。 -
构建基准数据集 SketchSem3D:首个面向 3D 户外语义场景生成的大规模草图驱动基准数据集,包含 “基于草图的 SemanticKITTI” 和 “基于草图的 KITTI-360” 两个子集,整合手绘草图、卫星图像、伪标注、语义标签关键词及 3D 真值(GT),支持标准化评测与公平对比,且在场景数量、体素分辨率、语义类别数上均优于现有 BEV-based 数据集(如 NuScenes)。 -
提出 CymbaDiff 模型:设计 “圆柱曼巴扩散模型(Cylinder Mamba Diffusion, CymbaDiff)”,核心创新包括:引入场景结构估计网络(SSEN)提供粗结构先验;采用变分自编码器(VAE)构建 latent 空间;设计圆柱曼巴块(CylMa)、跨尺度上下文块(CSCB)、扩张分解卷积块(DDCB),显式编码圆柱连续性与垂直层级,保留场景局部邻域关系与全局上下文,提升空间连贯性。 -
实验验证性能:在 SketchSem3D 数据集上开展大量实验,CymbaDiff 在 3D 语义场景生成(FID、MMD 指标)和补全(IoU、mIoU 指标)任务中均优于现有基线(如 SSD、Semcity、3D Latent Diffusion),且具备跨数据集泛化能力(仅在 SemanticKITTI 训练即可在 KITTI-360 上保持高性能)。
算法框架:
实验结果:
可视化:
06 DriveCritic
基于视觉语言模型的上下文感知、人类对齐自动驾驶评估新框架
来自密歇根大学、NVIDIA和复旦大学的团队提出了DriveCritic框架,利用视觉语言模型(VLM)进行上下文感知的自动驾驶评估,在人类偏好对齐任务中达到了76.0%的准确率。
-
论文标题:DriveCritic: Towards Context-Aware, Human-Aligned Evaluation for Autonomous Driving with Vision-Language Models -
论文链接:https://arxiv.org/abs/2510.13108
主要贡献:
-
揭示现有指标局限:明确当前自动驾驶评估领域 SOTA 规则化指标(如 EPDMS)的核心缺陷 —— 缺乏上下文感知能力与人类对齐性,在细微场景(如安全横向偏移、合理保守驾驶)中易误判,无法匹配人类驾驶员的安全 - 效率 - 舒适性权衡逻辑。 -
提出 DriveCritic 框架:
-
构建DriveCritic 数据集:从 NAVSIM 采样 5730 个轨迹对,聚焦规则化指标易误判的模糊场景,标注 pairwise 人类偏好,分为 “车道 - 进度权衡”(Case 1)和 “进度仅对比”(Case 2)两类场景,为人类对齐评估提供数据支撑。 -
设计DriveCritic 模型:以 Qwen2.5-VL-7B(VLM)为骨干,融合三视角相机图像、BEV 地图(含轨迹)、自车状态及 EPDMS 核心子分数(LK/EP)作为输入;采用 “监督微调(SFT)+ 强化学习微调(RL,基于 DAPO 算法)” 两阶段训练,使模型具备跨视觉 - 符号上下文的轨迹判优能力。
-
实验验证优势:在 DriveCritic 测试集上,DriveCritic 准确率达76%,显著优于 EPDMS(41.4%)、零样本 VLM(如 GPT-5 为 55.2%)及监督 pairwise 分类器(64.8%);同时鲁棒性率达 81.8%,证明其性能与稳定性,为自动驾驶人类对齐评估提供可靠方案。
算法框架:
实验结果:
可视化:
公众号后台回复“数据集”获取100+深度学习各方向资源整理
极市干货

点击阅读原文进入CV社区
收获更多技术干货

