点击下方名片,获取你的下一个灵感实例。
在自动驾驶技术飞速发展的今天,运动规划系统仍面临着一个棘手的难题:如何在复杂多变的真实路况中做出既安全又高效的决策?当突然遇到道路积水、自行车急转弯等长尾场景时,传统规划器往往因缺乏细粒度视觉理解而陷入困境。近期发表于ACM MM 2025的研究论文《VLMPlanner: Integrating Visual Language Models with Motion Planning》提出了一种创新解决方案,通过将视觉语言模型(VLM)与实时规划器深度融合,为自动驾驶规划系统注入了类似人类驾驶员的场景理解与常识推理能力。
论文信息
题目:VLMPlanner: Integrating Visual Language Models with Motion Planning
视觉语言模型与运动规划的集成:VLMPlanner
作者:Zhipeng Tang、Sha Zhang、Jiajun Deng、Chenjie Wang、Guoliang You、Yuting Huang、Xinrui Lin、Yanyong Zhang
为什么传统规划器在复杂场景中屡屡"翻车"?
当前主流的自动驾驶规划方法存在两大核心局限:
-
信息压缩导致细节丢失:基于感知输出或地图数据的方法会过滤掉关键视觉线索,比如道路上的小水坑、行人微妙的动作意图等 -
推理能力不足:面对突发情况时,缺乏类似人类的常识判断,例如无法仅凭交通信号灯颜色变化预判交叉路口的潜在风险
如图1(a)所示,传统基于LLM的规划方法依赖结构化语言或鸟瞰图输入,难以捕捉细粒度视觉特征;而图1(b)的集成方案虽有改进,却仍受限于感知数据的信息压缩。这些缺陷在极端天气、复杂路口等长尾场景中表现得尤为突出。
VLMPlanner:让规划器同时拥有"火眼金睛"和"理性大脑"
VLMPlanner的核心创新在于构建了视觉语言模型与实时规划器的协同框架,其总体结构如图2所示。这个混合系统主要包含三个关键组件:多模态输入处理模块、VLM引导的规划器以及上下文自适应推理门(CAI-Gate)。
多模态输入:让规划器"看"得更全、"懂"得更深
为了突破传统方法的信息瓶颈,VLMPlanner设计了四维输入体系:
-
系统消息:定义自动驾驶的基本行为准则 -
导航指令:将行驶目标转换为自然语言描述(如"直行110.9米") -
地图特征:通过MapEncoder处理车道线、人行横道等结构化信息 -
多视图图像:这是最具创新性的部分——通过CLIP模型编码车辆周围的多摄像头图像,再经3D感知模块转换为空间特征,保留了细粒度视觉细节
特别值得注意的是图像处理机制:系统通过可学习的3D参考点将二维图像特征投影到三维空间,既减少了输入到VLM的标记数量,又增强了空间理解能力,完美解决了原始图像数据维度爆炸的问题。
CAI-Gate:像人类驾驶员一样动态分配"注意力"
人类驾驶员会根据路况复杂度调整注意力——在空旷道路上可以放松警惕,而在繁忙路口则会高度集中。受此启发,VLMPlanner设计了上下文自适应推理门机制,通过两种方式评估场景复杂性:
-
基于学习的方法:使用EfficientNet-B0网络对场景复杂度进行5级分类,训练数据由Gemini标注的7503组图像-标签对构成 -
基于规则的方法:综合考量周围车辆数量、车道密度、车速、路口距离等指标生成复杂度评分
根据评估结果,系统动态调整VLM的推理频率,在简单场景中降低调用频率以节省计算资源,在复杂场景中则提高推理密度以保证决策质量。
专为自动驾驶打造的"视觉-语言"训练数据
现有VLM缺乏虽具备通用常识,但缺乏自动驾驶领域知识。研究团队构建了两个专用数据集填补这一空白:
DriveVQA(49,673个样本):专注于驾驶指令与轨迹理解,通过算法生成包含车辆状态、轨迹数据与多视图图像的问答对,增强VLM对控制信号的解读能力。
ReasoningVQA(1,099个样本):侧重场景推理能力培养,结合人工规则与GPT-4生成符合交通规则的决策案例。例如,给定路口图像与地图信息,模型需要生成"减速礼让行人"的决策并解释理由。
通过两阶段训练范式,VLM先在这两个数据集上进行领域适配预训练,再结合nuPlan数据集的10,000个实例微调实时规划器,最终实现了感知能力与规划能力的协同提升。
实验验证:在极端场景中展现卓越性能
研究团队在nuPlan基准测试中构建了专门的长尾场景测试集(Open-Hard20和Close-Hard20),包含各类高难度驾驶场景。实验结果显示:
-
开环测试:VLMPlanner显著优于PlanTF等先进方法,在复杂场景适应性上表现突出 -
闭环测试:在反应式与非反应式配置中均刷新SOTA,与DTPP相比性能提升1.68%,碰撞概率大幅降低


定性分析更直观展现了技术优势:在"行人过马路"场景中,VLMPlanner能从图像中识别行人意图并停车等待,而对比方法AsyncDriver则发生碰撞;在"红灯等待"场景中,系统准确识别交通信号并做出正确决策(图3)。
消融实验进一步验证了各组件的有效性:CAI-Gate在将VLM推理间隔延长至91时仍保持良好性能(表4),证明了效率优化的有效性;而预训练阶段使闭环测试性能显著提升,证实了专用数据集的价值(表5)。


结语:为自动驾驶注入"视觉常识"
VLMPlanner通过将多视图视觉理解与语言推理能力引入运动规划,首次实现了细粒度场景感知与高效轨迹生成的有机统一。其创新点不仅在于技术架构的突破,更在于提出了一种"人类式"的驾驶决策范式——让自动驾驶系统既能看到细节,又能理解 context,还能灵活分配计算资源。
这项研究为解决自动驾驶长尾问题提供了新思路,未来通过进一步优化VLM的时空推理能力和数据集规模,有望实现更安全、更智能的自动驾驶决策系统。

