复旦大学与引望智能联合发布WAM-Diff端到端自动驾驶框架
复旦大学与引望智能科技联合提出WAM-Diff——一种基于离散掩码扩散的端到端自动驾驶框架。该模型在NAVSIM-v1榜单上取得91.0 PDMS(预测驾驶得分),刷新当前纪录,显著优于UniAD(83.4)、TransFuser(84.0)和DiffusionDrive(88.1)。
WAM-Diff通过三大核心技术突破自动驾驶多模态轨迹生成瓶颈:离散掩码扩散模型(Masked Diffusion)、混合词表与稀疏专家(MoE)架构、以及在线强化学习(GSPO)。
掩码扩散模型重构轨迹生成范式
端到端自动驾驶正加速向视觉-语言-动作(VLA)统一架构演进,目标是输入多传感器数据与自然语言指令,直接输出规划与控制信号。
现有VLA模型分两类:自回归模型逐token生成动作,受限于因果顺序;连续扩散模型虽具多模态建模能力,但在逻辑推理与离散决策上灵活性不足。
WAM-Diff创新采用离散掩码扩散(Discrete Masked Diffusion):将未来轨迹建模为离散序列,训练时随机掩码部分路点并预测,推理时从全掩码序列出发,通过迭代去噪逐步还原完整轨迹。
该机制支持并行解码,摆脱时间顺序约束,允许“以终为始”的非因果策略——例如先确定数秒后目标位置,再反推当前动作,大幅提升长时程规划能力与生成效率。
混合词表与稀疏专家模型的架构创新
为实现语言理解与物理控制的统一建模,WAM-Diff设计混合离散动作分词(Hybrid Discrete Action Tokenization)方案。
对连续轨迹坐标(如路点),在[-100, 100]区间内以0.01分辨率均匀量化,生成20,001个数值token;二维路点表示为<x, y>有序对,解码误差上限仅0.005。语义指令(如“保持车道”“让行”)则直接使用文本token,二者统一集成至扩展词表并端到端优化嵌入。
模型主干基于SigLIP-2视觉编码器与LLaMA文本解码器:图像切分为16个视角共2185个视觉token;文本编码器处理指令与状态历史。
在前馈网络(FFN)层集成64个LoRA形式的稀疏专家(MoE),通过路由门控动态激活最相关专家,兼顾推理效率与长尾场景泛化能力。联合训练任务包括运动预测(Motion Prediction)与驾驶导向视觉问答(VQA),促使模型既知“如何开”,也懂“为何如此开”。
在线强化学习注入人类价值观
监督学习仅能模仿人类平均行为,难以应对分布外极端场景。WAM-Diff引入在线强化学习(GSPO,Group Sequence Policy Optimization),以多维奖励函数对整段轨迹进行端到端评估:
- 无碰撞(No Collisions):安全底线;
- 可行驶区域合规(Drivable Area Compliance):杜绝逆行、压线等违规;
- 碰撞时间(TTC):维持动态安全距离;
- 舒适度(Comfort):抑制急刹与急转;
- 自身进度(Ego Progress):保障任务完成效率。
GSPO规避细粒度信用分配难题,直接优化最终闭环驾驶质量,使模型超越模仿数据局限,自主习得符合安全逻辑的复杂决策能力。
实验数据性能分析
在NAVSIM-v1上,WAM-Diff以91.0 PDMS登顶SOTA;无碰撞率(NC)达99.1%,可行驶区域合规率(DAC)达98.3%,安全指标全面领先,舒适度(Comf.)接近满分,行进效率(EP)表现优异。
NAVSIM-v2上EPDMS评分89.7,同样处于当前最优水平。
研究团队同时指出当前局限:感知视野受限(仅依赖前视单目图像,路口博弈等场景存在侧后方盲区);缺乏时序历史信息(未建模视频流时序关系,难以准确推断他车速度与意图)。
后续工作将聚焦环视(3D)视觉编码器引入与高效时序建模架构开发,全面提升动态环境推理能力。
WAM-Diff验证了离散掩码扩散模型在自动驾驶领域的巨大潜力:它打破自回归生成惯性,融合MoE的容量扩展性与RL的价值对齐能力,为端到端自动驾驶提供兼具安全性、灵活性与可解释性的新路径。
参考资料:
https://arxiv.org/pdf/2512.11872
https://github.com/fudan-generative-vision/WAM-Diff

