大数跨境
0
0

NeurIPS25|首尔国立大学提出LMD方法,实现自动驾驶感知决策的透明化与逐层解剖

NeurIPS25|首尔国立大学提出LMD方法,实现自动驾驶感知决策的透明化与逐层解剖 极市平台
2025-11-24
0
↑ 点击蓝字 关注极市平台
作者丨深蓝AI
来源丨深蓝AI
编辑丨极市平台

极市导读

 

LMD通过一次记录、一次线性化前向传播,在保持网络输出完全不变的前提下,逐层拆分摄像头、雷达、激光雷达对检测结果的精确贡献,为自动驾驶感知系统提供实时、可解释的模态权重与安全边界。>>加入极市CV技术交流群,走在计算机视觉的最前沿

在自动驾驶领域,感知系统的决策透明度至关重要——即使是一次误判也可能带来灾难性后果。

然而,当摄像头、雷达、激光雷达等多种传感器的信息在融合网络中交织时,我们很难判断每个传感器对最终预测的具体贡献。这就像一个由多位专家共同做出的诊断,我们知道最终结论,却不清楚每位专家的具体判断和权重。

首尔国立大学的研究团队最新提出了Layer-Wise Modality Decomposition (LMD)方法,首次实现了对多传感器融合模型的逐层模态分解,让我们能够清晰地看到每个传感器在决策过程中扮演的角色。

论文链接:https://openreview.net/pdf?id=j7L5AiVqJQGithub Repo: https://github.com/detxter-jvb/Layer-Wise-Modality-Decomposition

01技术背景:多模态融合的"黑箱"困境

现代自动驾驶系统越来越依赖多传感器融合来提高感知的准确性和鲁棒性。摄像头提供丰富的语义信息,能识别交通标志、车道线和行人的姿态;激光雷达提供精确的3D几何结构,即使在夜晚也能准确测量距离;雷达则在雨雪天气下依然可靠,能穿透雾霾探测物体速度。这种互补性使得融合系统远超单一传感器的性能。

但融合带来了一个严重问题:当模型做出决策时,我们无法知道每个传感器贡献了多少。比如,当系统在雨夜检测到前方100米处有一辆静止车辆时,这个关键检测是主要依靠雷达的穿透能力,还是激光雷达的精确测距,或是摄像头捕捉到的尾灯反光?如果摄像头被雨滴遮挡,系统的检测能力会下降多少?这些问题直接关系到系统的安全边界。

传统的可解释AI方法在处理多模态融合时遇到了根本性挑战。内在可解释模型如广义加性模型(GAM)虽然提供了完全的透明度,但其严格的结构约束使其难以捕捉传感器间的复杂交互——比如摄像头识别出"这是一辆车",而雷达提供"它在移动"的信息,两者结合才能得出"前方有移动车辆"的完整判断。另一方面,事后解释方法如LIME和SHAP虽然适用于复杂模型,但它们基于特征独立性假设,难以处理传感器信息在网络深层的纠缠。现有的Layer-wise Relevance Propagation (LRP)方法主要针对单模态输入设计,缺乏将融合特征分解回各个传感器的机制。

02 核心创新:让融合网络"分解"思考

LMD的核心思想优雅而深刻:通过局部线性化神经网络的非线性操作,在每一层精确分离模态特定组件,同时保持原始模型的功能完全一致。这就像是给融合网络做了一次"解剖",让我们能看清每个传感器的信息是如何在网络中流动和转化的。

整个过程通过两次精心设计的前向传播实现。

第一次前向传播就像是给网络拍了一张"X光片",记录下每个非线性层的行为模式。对于ReLU激活函数,记录哪些神经元被激活;对于BatchNorm层,记录均值和方差等统计量;对于LayerNorm,保存归一化参数。这些信息构成了网络在正常工作状态下的"行为蓝图"。

第二次前向传播则是真正的"手术"过程。基于第一次记录的行为,LMD将所有非线性操作替换为线性化版本。激活函数变成了简单的缩放操作,归一化层被分解为线性变换。在这个线性化的网络中,不同传感器的信息可以独立传播,互不干扰。最关键的是,这个线性化网络在原始输入点的输出与原网络完全一致,保证了分解的准确性。

技术亮点1:严格的数学保证

LMD不是简单的近似方法,而是建立在严格的数学框架之上。研究团队提出了两个关键约束条件,确保分解既准确又有意义。

功能保持约束确保线性化网络与原始网络在目标配置下行为完全一致。这意味着当我们输入相同的传感器数据时,线性化网络会产生与原始网络完全相同的输出。这不是近似,而是精确相等。数学表达为:对于任意层   ,都有   。

分离属性则保证了真正的模态解耦。每个传感器的贡献可以独立计算,摄像头特征的变化不会影响雷达特征的输出。最终的融合结果精确等于各个模态贡献的总和:   ,其中 0 表示零输入。

技术亮点2:精妙的线性化策略

不同类型的网络层需要不同的线性化策略,LMD为每种层都设计了专门的处理方法。对于ReLU激活层,线性化退化为一个二进制掩码——记录哪些神经元在原始前向传播中被激活,然后在线性化版本中保持相同的激活模式。

这确保了即使某个传感器的输入变为零,网络仍然"记得"原始的激活模式。BatchNorm层的处理更加精细。在推理模式下,BatchNorm使用固定的统计量,LMD巧妙地将偏置项排除在模态特征之外,使其成为一个纯线性变换。这样,每个传感器的特征可以独立地通过归一化,而不会相互影响。

LayerNorm的挑战在于它动态计算统计量。LMD采用"比率规则"——将方差视为常数(从第一次前向传播中保存),然后将归一化过程线性化。虽然这引入了轻微的近似,但实验表明这种近似对最终结果的影响微乎其微。

技术亮点3:偏置分配的艺术

在神经网络中,偏置项包含了重要但难以归因的信息,如何处理这些偏置项直接影响分解的质量。研究团队系统地探索了三种分配策略,每种都有其理论依据和实际效果。

恒等规则将偏置完全独立出来,不归属于任何传感器。这种方法最为保守,确保了各传感器特征的"纯净性"。均匀规则则将偏置平均分配给所有模态,体现了"共同贡献"的思想。比率规则最为精细,根据各模态特征的大小按比例分配偏置,强者获得更多的偏置分配。

实验结果出人意料:恒等规则用于BatchNorm,比率规则用于LayerNorm的组合表现最优。这种"混合策略"在保持模态分离性的同时,最大程度地保留了原始模型的表达能力

03 实验验证:从理论到实践的完美跨越

研究团队在nuScenes这个大规模自动驾驶数据集上进行了全面验证。该数据集包含1000个驾驶场景,配备6个环视摄像头、1个激光雷达和5个毫米波雷达,提供了丰富的多模态数据。实验涵盖了摄像头-雷达、摄像头-激光雷达以及三模态融合等多种实际配置。

3.1 定量评估:扰动实验的巧妙设计

如何评估模态分解的质量?研究团队设计了一个巧妙的扰动实验。他们将一个模态的输入替换为无关样本,同时保持其他模态不变,然后观察各模态预测的变化。如果分解正确,被扰动模态的预测应该发生显著变化,而未扰动模态的预测应该保持不变。

实验结果令人印象深刻。当雷达输入被扰动时,基于雷达的预测与原始输出的相关性降至0.05,几乎完全去相关;而基于摄像头的预测保持完美相关性1.00,完全不受影响。相比之下,基线方法的相关性为0.22和0.76,说明模态并未真正分离。均方误差的结果进一步证实了这一点:LMD方法中,未扰动模态的MSE为0,而扰动模态的MSE显著增加到9.05。

这些数字背后的意义重大:LMD真正实现了模态解耦,每个传感器的贡献可以独立分析,互不干扰。这为故障诊断、性能分析和系统优化提供了坚实的理论基础。

3.2 可视化分析:直观展示传感器分工


可视化结果生动地展示了不同传感器的分工协作。在第一行的场景中,绿色标记显示雷达成功检测到了一辆车,而基于摄像头的预测在该位置缺乏信心。这可能是因为光线条件不佳或目标距离较远,摄像头难以清晰成像,但雷达的电磁波不受影响。第二行展示了另一个有趣的现象:不同传感器在不同区域发挥主导作用,摄像头在近处提供详细的语义信息,而雷达在远处和遮挡区域表现更好。

特别值得注意的是偏置项的可视化。虽然偏置项的输入为零,但它仍展现出一定的感知能力。这部分"幽灵感知"实际上包含了网络学到的先验知识和高阶交互信息,比如"道路通常是平坦的"、"车辆通常出现在道路上"等隐含假设。

3.3 消融实验:寻找最优配置的系统探索


研究团队系统地测试了不同偏置分割规则的组合,评估它们对模态分离性的影响。Identity-Ratio组合(BatchNorm使用恒等规则,LayerNorm使用比率规则)在雷达-摄像头融合中达到了最佳效果,扰动模态的相关性仅为0.05和0.15,而未扰动模态保持完美的1.00相关性。

相比之下,Uniform-Identity组合虽然也能保持未扰动模态的稳定性,但扰动模态的相关性高达0.50和0.42,说明模态分离不够彻底。这些细致的对比实验不仅验证了理论分析,也为实际应用提供了明确的配置指导。

04 技术优势与实际价值**

4.1 计算效率:实用性的关键


在实际部署中,计算效率往往决定了一个方法能否被采用。LMD在这方面表现优异,仅需要2次前向传播就能完成模态分解,计算复杂度为O(1)。相比之下,基于Shapley值的方法需要2^M次前向传播(M为模态数量),对于三模态系统就需要8次;LRP方法虽然计算次数较少,但需要额外的反向传播和梯度检查点,内存消耗为O(√N_l)。

这种效率优势在实际应用中意义重大。自动驾驶系统需要实时处理大量数据,每秒需要做出数十次感知决策。LMD的高效性使得它可以在线运行,为每个关键决策提供实时的可解释性分析。

4.2 与现有方法的协同增效


研究还探索了LMD与其他可解释性方法的结合。特别是LMD+SHAP的组合展现出了优异的性能。在这种组合中,LMD首先将预测分解为模态特定组件,然后SHAP对偏置项进行分析,并将结果重新分配给各模态。实验表明,这种组合将模态替换实验中的相关性从单独使用SHAP的0.69-0.72提升到了0.88-0.96,显著改善了模态分离效果。

这种协同效应说明LMD不是要取代现有方法,而是提供了一个新的维度。它可以与各种可解释性工具结合,形成更完整的解释框架。

05 总结

LMD代表了多模态融合可解释性的重要突破。它不仅在技术上实现了精确的模态分解,更重要的是为安全关键系统提供了急需的透明度。正如研究团队所强调的:"在自动驾驶这样的安全关键系统中,理解每个传感器的贡献不是锦上添花的功能,而是确保安全的必要条件。"

这项工作的意义超越了技术本身。它让我们看到,即使是最复杂的深度学习系统,也可以通过巧妙的方法变得可理解、可验证。这不仅增强了我们对AI系统的信任,也为未来的系统设计提供了新的思路——我们不必在性能和可解释性之间做取舍,而是可以两者兼得。

随着自动驾驶技术向更高级别演进,类似LMD这样的可解释性工具将成为不可或缺的基础设施。它们不仅帮助我们理解AI是如何"看"世界的,更重要的是让我们能够验证它"看"得是否正确,是否安全,是否值得信赖。


公众号后台回复“数据集”获取100+深度学习各方向资源整理


极市干货

技术专栏:多模态大模型超详细解读专栏搞懂Tranformer系列大视觉模型 (LVM) 解读扩散模型系列极市直播
技术综述:小目标检测那点事大模型面试八股含答案万字长文!人体姿态估计(HPE)入门教程

点击阅读原文进入CV社区

收获更多技术干货

【声明】内容源于网络
0
0
极市平台
为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
内容 8155
粉丝 0
极市平台 为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
总阅读5.7k
粉丝0
内容8.2k