极市导读
OmniScene 让自动驾驶“长眼睛更会思考”——先用轻量级多视图-多帧视觉语言模型提炼出“人类注意力”文字,再与 3D 实例特征分层融合,统一完成检测、预测、规划;nuScenes 实测轨迹误差降到 0.58 米、零碰撞,视觉问答精度提升 21%,端到端系统第一次把语义注意力装进 4D 场景理解。>>加入极市CV技术交流群,走在计算机视觉的最前沿
如何向一段式端到端注入人类思考的能力?
人类视觉能够将2D观察结果转化为以自身为中心的3D场景理解,这一能力为理解复杂场景和展现自适应行为提供了基础。然而当前自动驾驶系统仍缺乏这种能力—主流方法在很大程度上依赖于基于深度的三维重建,而非真正的场景理解。
为解决这一局限,港科、理想和清华的团队提出一种全新的类人框架OmniScene。 首先本文引入OmniScene视觉-语言模型(OmniVLM),这是一种结合环视感知与时序融合能力的VLM框架,可实现全面的4D场景理解。其次通过师生结构的OmniVLM架构与知识蒸馏,将文本表征嵌入3D实例特征中以实现语义监督,既丰富了特征学习过程,又明确捕捉了类人的注意力语义信息。这些特征表征进一步与人类驾驶行为对齐,形成更贴近人类认知的“感知-理解-行动”架构。
此外本文提出分层融合策略(HFS),以解决多模态融合过程中模态贡献不平衡的问题。该方法能在多个抽象层级上自适应校准几何特征与语义特征的相对重要性,实现视觉模态与文本模态互补信息的协同利用。这种可学习的动态融合机制,使得异质信息能够被更细致、更有效地挖掘。
本文在nuScenes数据集上对OmniScene进行了全面评估,并与十多种当前主流模型在各类任务上进行基准对比。结果表明,OmniScene在所有任务中均实现了更优性能,为感知、预测、规划和视觉问答(VQA)任务建立了新的基准。值得注意的是,OmniScene在视觉问答性能上实现了21.40%的显著提升,充分证明了其强大的多模态推理能力。
-
项目链接:https://github.com/ocean-luna/OmniScene -
论文链接:https://arxiv.org/abs/2509.19973
01 引言
近年来,自动驾驶技术取得了显著进展,其核心领域(包括感知、运动预测和规划)均实现了突破。这些技术进步共同为更精准、更安全的驾驶性能奠定了基础。在此背景下,端到端(E2E)自动驾驶作为一种创新范式逐渐受到关注。通过利用大规模数据集,端到端方法能够学习将原始传感器输入直接映射为预测的规划轨迹,从而不再依赖手动的中间处理环节,同时提升了系统的适应性与可扩展性。
然而,传统的端到端自动驾驶系统在生成未来规划轨迹或低级控制指令时,往往未能有效整合感知与场景理解模块。这种整合缺失使其难以融入关键的上下文信息(如交通动态和导航约束),而这些信息对于稳健的自动驾驶至关重要。在复杂且模糊的场景中,这种局限尤为突出——此时单一的感知或简单的预测无法满足场景理解需求,例如处理复杂的交通交互或遵守交通规则等场景。
与之相反,人类视觉会持续将感知输入转化为场景理解,并根据不断变化的驾驶环境(如交通信号灯、行人活动和车道标线)调整注意力焦点。这种具备注意力感知能力的场景理解,是人类拥有卓越驾驶能力的关键所在。因此构建一种能够实现类人场景理解的统一方法,对于自动驾驶系统的智能决策与安全规划至关重要。
近年来,基于注意力感知的规划技术试图通过引入自注意力、空间注意力和局部特征提取模块等机制,增强端到端自动驾驶系统的性能。尽管这些努力取得了一定进展,但现有方法仍常依赖低级特征或静态启发式规则,缺乏明确的类人注意力建模,无法在复杂、动态的环境中实现自适应调整。更重要的是,即便视觉-语言模型(VLMs)的出现带来了强大的语义抽象能力,多模态融合仍停留在表面层面:视觉模态与文本模态通常被独立或依次处理,而非深度整合。这一局限导致互补信息未被充分利用——高层语义、注意力推理与几何上下文未能有效结合以指导规划过程。
因此自动驾驶领域的有效场景理解需要一种与人类认知对齐的多模态融合策略,能够联合聚合3D特征、视觉特征与语义特征,从而在动态驾驶场景中实现更贴近人类的上下文感知与优先级判断。
受上述挑战启发,本文提出OmniScene框架(如图1所示),这是一种旨在通过类人场景理解推动自动驾驶系统发展的创新方案。该方法主要解决以下三个核心问题:
如何实现4D场景理解? 实现鲁棒的4D场景理解需要融合感知表征与概念表征,弥合从视觉传感器提取的原始几何结构与人类认知特有的高层语义解读之间的差距。3D几何特征能够捕捉场景中的空间结构与动态关系,而文本语义特征则可编码环境元素的上下文、意图与抽象推理信息。这种双维度整合模拟了人类解读视觉刺激的过程——在这一过程中,感知信息会持续通过认知推理进行调节,以支持复杂动态环境下的驾驶决策。
在本文方法中,从传感器数据中提取的多视图3D几何特征可重建目标的空间布局与运动状态,为定位、避障和运动规划等任务提供精确基础。与此同时,由大型视觉-语言模型生成的语义特征能够提供更高层次的理解,包括注意力线索、导航目标和潜在风险,为类人判断提供必要的上下文感知。这些互补模态的融合产生了一种统一的表征,使自动驾驶系统不仅能以几何精度“观察”环境,还能以类似人类推理的方式“理解”场景。这种范式提升了场景理解的可解释性与稳健性,使自动驾驶系统能够在复杂交通场景中做出合理且可靠的决策。
如何在场景理解中实现类人注意力? 在场景理解中实现类人注意力,不仅需要被动感知,还需对视觉线索进行选择性优先级排序与上下文解读——这与熟练驾驶员在复杂环境中分配认知资源的方式类似。在本文框架中,这一能力通过OmniScene视觉-语言模型(OmniVLM)实现,该模型专门设计用于处理多视图、多帧视觉输入,以实现全面的场景感知与注意力推理。
借助先进的语义推理能力与大规模多模态知识,OmniVLM能够直接从解析后的传感器输入和跨视角、跨时间帧的环境标注中,生成注意力描述与决策依据。这些输出不仅捕捉了显式的场景元素,还包含了潜在的依赖关系与任务相关优先级,与人类观察和推理过程中形成的精细注意力图谱高度相似。
为实现高效部署,本文设计了师生结构的OmniVLM架构:原始的大规模OmniVLM作为教师模型,将其注意力知识(如空间注意力分布及相应的语义依据)迁移到轻量级的学生模型中。通过知识蒸馏,学生模型能够学习选择性地关注关键区域(如人行横道、交通信号灯和附近行人),同时抑制无关的背景信息——这一过程与人类感知的注意力机制高度一致。最终,OmniVLM实现了稳健且可解释的场景理解,并具备类人注意力行为,同时兼顾几何真实性与语义抽象性。这一设计使注意力感知型驾驶智能体能够在动态且安全关键的场景中,进行精细的上下文敏感推理与自适应驾驶。
如何为端到端自动驾驶实现多模态学习? 通用的3D场景理解侧重于空间中几何结构与目标关系的重建和解读,而自动驾驶则需要更多能力:对空间布局的准确感知必须与语义解读和上下文感知推理紧密结合。在真实驾驶环境中,智能体不仅需要建模各类动态与静态目标的位置和运动,还需理解其语义意义并预测其随时间的演变。
为满足这些需求,本文提出一种超越传统几何分析的分层融合策略(HFS)。该方法将以目标为中心的3D实例表征与多视图视觉输入、文本线索衍生的语义注意力相结合,并通过显式建模时间依赖关系实现整合。这种多层框架能够生成统一的表征,既捕捉细粒度的空间结构,又包含高层的时间语义优先级。通过将4D推理能力与上下文和意图的自适应解读能力相结合,本文方法推动了自动驾驶场景理解技术的发展。
本文在nuScenes数据集上对OmniScene进行了测试。与十多种当前主流模型的对比结果表明,本文方法实现了显著性能提升,充分证明其在增强感知、规划和整体驾驶性能方面的有效性。
02 相关工作回顾
2.1 多模态信息融合机制
近年来,基于注意力的融合机制与可学习融合策略已成为多模态信息融合的主流范式,可有效应对模态异质性与模态失衡问题。这些方法在捕捉跨模态交互、动态适配各模态相关性方面已展现出显著成效,因此特别适用于自动驾驶、机器人等复杂任务场景。
基于注意力的融合机制借助注意力的优势对模态间依赖关系进行建模,使模型能够聚焦于信息最丰富的特征。基于Transformer的架构已成为该方法的核心基础,其通过自注意力与交叉注意力机制对不同模态的特征进行融合。例如,TransFuser利用Transformer整合视觉与激光雷达(LiDAR)特征,在三维目标检测与场景理解任务中实现了最优性能;类似地,跨模态注意力网络通过注意力对视觉与文本特征的重要性进行加权,在图像-文本匹配、视觉问答等任务中提升了性能。这些方法在捕捉长程依赖关系与复杂模态交互方面表现出色,但通常需要大量计算资源,这在实时系统中的应用受到了限制。
另一方面,可学习融合机制因其能够根据任务需求动态调整各模态贡献度的特性而受到关注。这类方法引入权重、系数等可学习参数,在训练过程中实现特征的自适应融合。例如,“模态感知融合”(Modality-Aware Fusion)通过设计可学习系数平衡视觉与激光雷达特征的重要性,提升了自动驾驶任务的鲁棒性;另一类典型方法是“动态融合网络”(Dynamic Fusion Networks),其利用门控机制根据当前上下文的相关性对模态进行选择性融合。这些策略在处理模态失衡问题时效果显著——当某一模态因自身信息丰富度或任务相关性而占据主导地位时,可学习机制能动态调整融合过程,确保所有模态都能为最终输出提供有效贡献,进而同时提升模型性能与可解释性。
2.2 端到端自动驾驶
端到端自动驾驶系统通过在统一目标函数下对所有模块进行联合训练,最大限度减少了流水线中的信息损失,从而在整体性能上实现了显著提升。近年来,ST-P3、UniAD等统一框架开创了基于视觉的端到端系统,其将感知、预测与规划模块无缝整合,在复杂驾驶场景中实现了最优性能。在这些进展的基础上,VAD、VADv2等后续研究引入了向量化编码方法,提升了场景表示的效率与可扩展性,使系统能更稳健地处理动态环境。
近期,Ego-MLP、BEVPlanner、PARA-Drive等方法探索了模块化架构中的新型设计方向,重点关注自车状态建模与创新性架构设计,以进一步提升驾驶性能。这些方法通过引入更丰富的自车状态表示及其与环境的交互信息,突破了端到端系统的性能边界。
本研究在基于视觉的端到端自动驾驶基础上,融入了类人注意力文本信息。通过利用自然语言描述关键驾驶线索(如“前方有行人横穿马路”“前方红灯需刹车”),使模型能够明确捕捉并优先关注与人类注意力对齐的兴趣区域。这一改进不仅提升了系统的可解释性,还确保模型决策与人类推理过程更紧密地对齐,尤其在安全关键场景中效果显著。
2.3 自动驾驶中的视觉-语言模型
尽管视觉-语言模型(VLM)在各类通用任务中取得了显著进展,但其在自动驾驶领域的应用仍面临诸多独特挑战。这些挑战源于以下需求:为模型注入驾驶领域专属知识、准确解读复杂交通场景、确保输出满足自动驾驶系统的实时安全性与推理要求。
首要挑战是如何有效融入驾驶领域专属文本提示,以传递驾驶环境中独特的语义信息与注意力线索。与通用视觉-语言任务不同,自动驾驶要求模型理解细微的指令(如“在人行横道前礼让行人”“前方红灯需刹车”),并能针对安全关键线索动态调整推理过程。现有基于VLM的系统往往采用通用提示或依赖大规模视觉-语言预训练,难以充分捕捉安全驾驶决策所需的场景专属信息。
此外,将VLM整合到端到端自动驾驶流水线中也面临进一步挑战。Drive-with-LLMs、DriveGPT4等方法已证明利用VLM进行轨迹预测与规划的可行性,但这些方法通常依赖真值感知数据或领域专属微调,限制了其在多样化真实场景中的泛化能力。ELM、DriveVLM等其他研究强调了大规模跨领域预训练的重要性,但在使模型输出与人类决策过程及可解释性对齐方面仍存在挑战。类似地,VLM-E2E探索了在鸟瞰图(BEV)空间中融合多模态驾驶员注意力,但基于BEV的整合可能会丢失细粒度三维空间上下文,削弱语义-几何对齐效果。
另一关键问题是缺乏针对城市与高速公路环境复杂性设计的高质量、驾驶专属视觉-语言数据集。尽管近期研究已开始填补这一空白,但仍需进一步捕捉罕见、长尾或安全关键场景——这些场景对于确保模型稳健性至关重要。综上,尽管VLM为自动驾驶提供了极具潜力的能力,但要推进其应用,需针对性解决领域专属语义、数据稀缺、实时可解释性及整合等问题。本研究旨在通过设计驾驶注意力提示、开发端到端视觉-语言推理新方法,填补安全关键驾驶场景中的这些空白。
03 算法详解
本节将全面介绍OmniScene框架(如图2所示)。该系统的输入包括环视图像、操作指令与用户提示。这些多模态输入首先由学生端OmniVLM模块处理,生成描述观测场景的简洁文本标注;同时,环视图像通过视觉编码层提取视觉特征。生成的文本标注随后输入至分层融合策略(HFS)模块,通过预训练CLIP模型转换为文本特征表示。之后三维实例特征、视觉特征与文本特征进行融合,形成全面的特征表示,为感知、预测、规划等下游任务提供支持。
3.1 预备知识
从信息论角度来看,多模态聚合可通过分析最终三维实例表示中捕捉到的视觉与语言互补知识量进行形式化描述。设 分别表示三维实例、视觉、文本模态的随机变量。聚合效果通过聚合后的三维表示与视觉-文本联合特征间的总互信息 衡量,该指标反映了模型整合并保留跨模态语义信息的能力。
多模态聚合的核心目标是提升三维实例与视觉-文本联合特征间的互信息 ,其可分解为:
其中, 衡量三维实例与视觉特征间的共享信息, 表示在视觉特征给定的条件下,文本特征提供的额外信息。在理想的聚合过程中,两项均应提升,以实现有效的特征融合。
在嵌入学习过程中,除对比对齐外,还需考虑最小化条件熵 一一该熵反映了在给定视觉与文本模态的情况下,三维实例的不确定性。条件熵越低,表明融合后的三维表示不确定性越小,聚合效果越优:
需注意的是,最小化该熵可使三维实例能通过视觉与文本线索被高效预测。 此外,为避免信息冗余并确保各模态贡献独特信息,可引入交互信息进行衡量:
该指标反映了模态间关于三维实例的净协同效应。若其值为正,表明模态联合提供的关于实例的整合信息多于单一模态提供的信息。
最大化互信息
提升互信息 的核心策略是实现多模态特征与三维表示的对齐。分类任务中使用的焦损失(Focal Loss)通过对误分类误差施加更大惩罚,重点关注罕见或关键实例,确保三维特征与视觉特征、文本线索的对齐。这一过程同时增强了语义对应性,有效提升了互信息分量 与 。
此外,文本条件聚合在将文本语义嵌入学习过程中发挥关键作用。该机制减少了模态间冗余,提升了交互信息 ,确保通过协同整合丰富三维表示。
最小化条件熵
降低 对于实现精准三维预测、减少融合表示的模糊性至关重要。L1损失等回归目标可直接最小化预测误差,适用于基于多模态信息的三维边界框与轨迹预测任务。这种对几何与动态不确定性的降低,减少了嫡值,进而获得更稳健的三维实例表示。
具体而言,轨迹预测损失通过利用时间视觉线索与文本指令(如"前方车辆转弯")最小化位移误差,降低了运动动力学的不确定性,进一步提升了三维表示的准确性。
跨模态目标的统一优化
整体训练目标(公式33)整合了分类损失(如焦损失)、回归损失(如L1损失)与辅助目标,以同时实现

