大数跨境
0
0

视觉语言动作模型+强化学习!ReCogDrive:首个开源的强化学习驱动的驾驶VLA模型

视觉语言动作模型+强化学习!ReCogDrive:首个开源的强化学习驱动的驾驶VLA模型 极市平台
2025-08-26
2
↑ 点击蓝字 关注极市平台
作者丨Yongkang Li
编辑丨极市平台

极市导读

 

华科×小米汽车 ReCogDrive:让 VLM 真正“会开车”。300 万驾驶问答注入世界知识,扩散规划器把语义秒变连续轨迹,RL 微调后 NAVSIM 指标直冲 90.5,端到端自驾再破天花板。 >>加入极市CV技术交流群,走在计算机视觉的最前沿

你是否见过这样的场景:自动驾驶系统在常规城市道路表现不错,但一遇到复杂路口、罕见场景或突发情况,表现立刻失灵?这是当前端到端自动驾驶的核心难题之一。

为解决这一行业瓶颈,来自 华中科技大学 与 小米汽车 的研究团队提出了 ReCogDrive ——一个全新的、具备认知能力的端到端自动驾驶框架。该方法融合了视觉-语言模型(VLMs)的世界知识扩散模型规划器以及强化学习微调,不仅能看懂路况,还能生成更安全、更类人类的驾驶轨迹,在 NAVSIM 基准测试 上取得了 PDMS 90.5 的新SOTA成绩。

  • 论文题目:  ReCogDrive: A Reinforced Cognitive Framework for End-to-End Autonomous Driving
  • 论文链接:https://arxiv.org/abs/2506.08052
  • 代码链接: https://github.com/xiaomi-research/recogdrive
  • 高质量驾驶QA数据集链接: https://huggingface.co/datasets/owl10/ReCogDrive_Pretraining
  • 模型链接:https://huggingface.co/owl10/ReCogDrive

01 研究背景

近年来,端到端(End-to-End, E2E)自动驾驶逐渐成为学界与产业界的研究热点。与传统的“感知-预测-规划”三阶段流水线方法不同,端到端框架通过一个统一的深度模型直接将传感器输入映射为未来的驾驶轨迹,从而实现模块间的联合优化。在 NuScenesWaymo 等开源自动驾驶基准中,代表性方法如 UniADVAD 已经展现出令人瞩目的性能,证明了端到端范式的潜力。

然而,在实际道路环境中,这些方法面临着 长尾场景(long-tail scenarios) 的巨大挑战,在长尾场景下,端到端模型往往表现显著下降,出现轨迹预测错误或安全性不足的问题。这背后的核心原因在于训练数据的覆盖度有限,模型学到的往往是 “平均驾驶策略”,而非适应复杂环境的 泛化能力

为了解决这一问题,研究者们尝试将 视觉-语言大模型(Vision-Language Models, VLMs) 引入自动驾驶。VLMs 在大规模互联网数据上预训练,具备 强大的语言理解与跨模态推理能力,能够对复杂场景进行解释、描述和推断。近期的研究大致分为两类:

  • 双系统架构(Dual-System):如 DriveVLM、Senna、DiffVLA、AsyncDriver 等,将 VLMs 用于生成高层次的指令或低频轨迹,再由传统端到端驾驶系统进行精细化规划。

  • 单系统架构(Single-System):如 EMMA、Omnidrive、Orion、GPT-Driver、LMDrive、Sce2DriveX、Atlas、WiseAD 等,直接利用 VLMs 进行端到端轨迹预测,并在一定程度上提升了解释性。

尽管这些方法展现出初步成效,但仍存在三大 关键缺陷

  1. 领域鸿沟(Domain Gap):VLMs 多在通用互联网图文数据上训练,缺乏驾驶特定的知识和场景理解能力。

  2. 模态不匹配(Modality Gap):VLMs 输出的 离散文本轨迹 难以稳定映射到自动驾驶所需的 连续控制空间,并且自回归解码常常导致格式错误或不安全的轨迹。

  3. 学习方式受限:大多数方法依赖模仿学习(Imitation Learning),容易学到次优解,无法真正探索和优化驾驶策略。

因此,如何让端到端自动驾驶系统既具备 丰富的认知能力,又能生成 平滑、安全、可泛化的驾驶轨迹,成为当前研究的核心难题。

02 方法

ReCogDrive 的整体框架由一个驾驶场景多模态大模型和一个基于扩散的轨迹规划器组成。在推理时,模型接收来自前视图的图像、导航指令、自车状态与历史轨迹,并结合任务指令输入多模态大模型。大模型输出的高维语义特征作为条件传递给扩散式规划器,后者从噪声中逐步去噪生成最终轨迹。为了实现这种认知增强的端到端驾驶系统,我们设计了一个三阶段训练范式,依次注入 驾驶认知轨迹连续性 和 泛化能力

多模态大模型驾驶领域域适应

在第一阶段,我们构建了一个包含 310 万条驾驶相关问答对 的大规模数据集,用于训练视觉语言模型(VLMs),让其具备驾驶领域的认知能力。具体而言,我们从 12 个开源驾驶数据集收集原始样本,统一格式与标注规范,并利用 Qwen2.5-VL 进行自动重标注与质量过滤,最终保留约 230 万条高质量问答对。此外,我们还通过自动标注流水线扩展了数据,覆盖场景描述、关键物体检测、驾驶意图解释等任务,并融合 LLaVA 的指令调优数据,确保模型在保持指令跟随能力的同时,能够理解并解释驾驶行为。我们选择 InternVL3-8B 作为基础模型,其采用多模态预训练范式,能够高效融合视觉与语言信息。在输入端,每张图像被切分为   的图块及一个缩略图,经由 InternViT 编码,再通过 pixel shuffle 将图像特征压缩为 Token,与文本 Token 拼接后输入 LLM。在训练完成后,模型能够以文本的形式生成轨迹  、驾驶解释   以及场景描述   等:

其中,  与    为驾驶决策提供了解释性,使得 ReCogDrive 不仅能预测轨迹,还能说明其原因。

基于扩散模型的轨迹规划器

在第二阶段,我们引入了一个 基于扩散模型的轨迹规划器,核心目标是解决 “语言空间”与“驾驶动作空间”之间的鸿沟。大家知道,视觉语言模型(VLMs)天生擅长理解和描述场景,但它们生成的结果往往是 离散的文本,数值精度不够,而且偶尔会“幻觉”出错误的轨迹。这在对安全性要求极高的自动驾驶中,是绝对不能容忍的。

为此,我们设计了一个“扩散式解码器”:它从噪声开始,一步步“去噪”出最终的驾驶轨迹。相比于直接让模型写出坐标,这种方式更像是在高维空间里 慢慢雕刻出一条平滑、可执行的行车路线。在这个过程中,模型不仅融合了场景的语义信息,还结合了历史轨迹和自车状态,因而生成的结果既合理又稳定。

更值得一提的是,我们没有采用传统的扩散网络,而是引入了最新的 LightningDiT 架构。在这个框架中,我们结合了 RMSNorm、RoPE(旋转位置编码)以及 SwiGLU-FFN 等前沿设计,让模型在推理时既更加高效稳定,又能更好地捕捉轨迹的时序关系,并在计算效率与表达能力之间达到平衡。得益于这些改进,ReCogDrive 的轨迹规划器能够以更快的速度生成平滑、自然的驾驶轨迹,让车辆的每一次转向和加减速都更接近人类驾驶员的直觉。

这些改进让 ReCogDrive 的轨迹规划器不仅更快,而且在生成轨迹时更平滑、更自然、更符合人类驾驶习惯。最终效果就是:无论是复杂的路口转弯,还是长距离直行,模型都能给出 舒适且安全 的行驶方案。

仿真器辅助的强化学习

在第三阶段,我们通过 仿真器辅助的强化学习 将泛化驾驶认知融入规划器,从而突破模仿学习的局限。仅依赖专家轨迹进行模仿学习时,由于同一场景可能存在多条不同的轨迹,模型往往会学习平均路径,导致次优甚至不安全的行为。相比之下,强化学习允许模型在仿真环境中自主探索并获得奖励信号,逐步优化决策策略。具体而言,我们将扩散策略   视为一个逐步去噪的马尔可夫决策过程:

在 NAVSIM 仿真器中,轨迹根据碰撞情况、可驾驶区域合规性、驾驶舒适度等指标进行打分,得到奖励  ,随后计算组内标准化优势:

扩散链的条件策略服从高斯分布:

从而得到完整轨迹的对数概率:

最终的优化目标结合了强化学习损失   与行为克隆损失  ,以在探索与稳定性之间取得平衡:

其中   为折扣因子,用于降低去噪初期高噪声带来的不稳定性,  为行为克隆损失的权重。通过这种方式,ReCogDrive 能够在仿真反馈中学习到更安全、更稳定、更类人类的驾驶轨迹。

03 实验与结果

  • 在 NAVSIM基准 上,ReCogDrive 取得了 PDMS 90.5 的成绩,比之前的视觉-only SOTA方法 PARA-Drive 提升 6.5分

  • 与使用相同VLM的基线相比,ReCogDrive 的改进幅度高达 +6.3分,充分证明了三阶段范式的有效性。

表2 展示了我们方法中各个关键组件的消融实验结果,当仅在NAVSIM轨迹数据上训练时,模型的PDMS为83.3,在此基础上,结合我们的大规模驾驶问答数据对视觉语言大模型进行驾驶场景适应后,PDMS提高了2.9,引入扩散模型规划器以实现连续轨迹预测,进一步提升了0.6的PDMS,最后,通过引入模拟器辅助的强化学习,PDMS提升至89.6,增加了2.8,验证了我们强化学习在提升驾驶安全性方面的有效性。

如图所示,可视化展示了ReCogDrive在 NAVSIM 上的感知与规划的能力。除了生成平滑的轨迹预测外,ReCogDrive 还能输出描述性的场景总结和高层次的驾驶指令。它能够准确识别关键物体,如出租车和红绿灯等。

04 论文贡献与价值

  1. 认知增强:结合世界知识、驾驶知识和多轨迹探索,赋予模型“会思考”的驾驶能力。

  2. 三阶段范式:预训练+扩散模型+强化学习,成功打通了从语言到驾驶动作的端到端。

  3. 数据驱动:310万高质量问答数据,推动了驾驶VLM的领域适配。

  4. 安全可靠:相比模仿学习,RL带来更安全、更类人类的驾驶轨迹。

总的来说,ReCogDrive 不仅仅是一个新的自动驾驶模型,更是“认知+生成”的融合探索。它展示了VLM与强化学习在安全驾驶中的巨大潜力,让端到端自动驾驶离真正落地又近了一步。


公众号后台回复“数据集”获取100+深度学习各方向资源整理

极市干货

技术专栏:多模态大模型超详细解读专栏搞懂Tranformer系列大视觉模型 (LVM) 解读扩散模型系列极市直播
技术综述:小目标检测那点事大模型面试八股含答案万字长文!人体姿态估计(HPE)入门教程

点击阅读原文进入CV社区

收获更多技术干货


【声明】内容源于网络
0
0
极市平台
为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
内容 8155
粉丝 0
极市平台 为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
总阅读919
粉丝0
内容8.2k