

港中文最新SOTA！HybriMap：充分利用PV 和BEV特征，nuScenes大涨4%！

极市平台

2024-05-06

↑ 点击蓝字关注极市平台

作者丨Chi Zhang

来源丨自动驾驶之心

编辑丨极市平台

极市导读

本文提出HybriMap来解决高精地图构建中的信息丢失问题。具体而言，作者设计了一种混合方法，以有效地重新利用来自原始输入的透视视图特征。此外，还采用了双增强模块，可同时提高解码性能和BEV性能。 >>加入极市CV技术交流群，走在计算机视觉的最前沿

写在前面 & 笔者随笔

在自动驾驶的规划任务中，地图信息的重要性是不言而喻的。但是传统的SLAM离线建高精地图，不仅流程也复杂，成本也比较昂贵，所以行业里大家都在“卷”无图NOA。在线构建地图信息，车道线、斑马线、道路路沿等等，也得到越来越多的关注。HDMapNet, VectorMapNet, MapTRv2等等都是一些先前之作。这篇论文还是把静态地图的信息，用2D的vector来表示，通过网络的设计，提升了在 nuScenes 和 Argoverse 2数据集上的精度，实现SOTA。接下来，笔者将从相关工作（前人怎么做？）、论文动机（为什么要做？）、论文方法（具体怎么做？）和论文结果（做的怎么样？）这三个方面，阐述这项工作。

论文动机

对于在线地图生成的任务，之前的一些论文通常可以分为以下三个步骤：

图像主干网络，用于从输入图像中提取透视图 (PV) 特征；
交叉视图转换网络，用于将 PV 特征投射到鸟瞰图；
基于transformer的 BEV 解码器，用于生成最终的地图预测。

然而，交叉视图转换网络的复杂性在前阶段数据丢失方面带来了重大挑战，特别是 PV 特征。以 MapTRv2 为例，这种先验损失问题通常表现为输入 PV 图像与最终地图预测之间的差异。如下图，蓝色区域中突出显示的车道分隔线在左图中可见，但在 MapTRv2 中却无法检测到。此外，黄色圆圈指示的道路边界在右图中似乎超出了交叉口，但 MapTRv2 将其错误预测为一个小实例。

直观地讲，上述前阶段数据丢失问题可以通过再次利用具有空间先验的 PV 特征来解决。然而，值得注意的是，PV 特征通常包含大量来自天空和建筑物等不相关类别的冗余信息，因为 BEV 地图预测只需要地图元素。相反，尽管跨视图转换网络产生的 BEV 特征表示遭受先验损失，但与 PV 特征相比，它会关注更有意义和更复杂的元素。那么问题就来了：我们如何才能有效地保留 PV 和 BEV 特征中包含的真正有用的信息呢？这就促使了这篇工作 —— Hybrid approach of HD Map construction (HybriMap)。

简单来说，该模型结构涉及一个并行通道，来充分利用 PV 和 BEV 的特征来有效构建高清地图。作者设计了一个 Dual Enhancement Module (DEM)，通过显式集成混合特征和隐式升级 BEV 特征来实现特征增强。DEM 的显式分支融合从 PV 特征获得集成位置编码，并协助后续解码；隐式分支专注于提取 BEV 特征中的有价值线索。模型具体结构和方法见下一章节。

论文方法

模型输入：来自 N 个相机的 RGB 图片；
模型输出：个地图实例, 有个类别, 每个实例由个 2 D向量来表示。

模型结构主要包括以下几个模块，按顺序分为：

Image Backbone： 输入多视角的图片, 用 Resnet50 提取图片特征, 得到 PV 特征 ;
PV-to-BEV： 从 PV 特征中提取 BEV 特征，作者使用 LSS 作为默认方法;
Dual Enhancement Module： 这个模块, 用上述两个步骤得到的特征, 作为输入, 输出两个东西：集成位置编码 (Integrated Positional Embedding) 和增强版的 BEV 特征。具体做法, 待会细说;
Map Element Decoder： 这个模块是基于transformer设计的解码器, 直接输出所需的预测值。利用了 hierarchical query 作为query 和增强版 BEV 特征作为 value。位置编码使用了全局可学习的位置编码, 配合上步骤 3 中输出的集成位置编码。

关于 Dual Enhancement Module

那么具体这个 Dual Enhancement Module 模块怎么设计的呢？详见下面这张图：

BEV 特征会 downsample 得到 , 再 upsample, 拼接原来的特征, 经过的卷积得到一个增强版 BEV 特征。与此同时, 会用到相机参数, 投影到图片坐标系, 与原来得到的 PV 特征, 生成一个 heatmap, 然后再转化成一个集成位置编码。值得一提的是, 这里的 heatmap 是会被监督的。

关于Integrated Positional Embedding

PV 和 BEV 信息被显式合并在 DEM 的这个分支中生成集成位置编码。Deformable DETR 中提出，位置编码不仅充当输入信息的装饰元素，而且还在生成参考点方面发挥作用，而这些参考点会作为地图向量的初始估计。通过将混合特征合并到位置编码中，解码的特征表示和向量估计变得更容易接受从混合信息导出的线索。

假设是个级联的卷积层。首先用多个卷积层从 BEV 特征中下采样得到 :

这里的是一个预先定义好的下采样系数。将投影到透视视角, 通过给一个固定的高度, 将一个坐标用相机的参数投影到像素坐标系:

对于每个类别, 都会生成一个 PV 特征, 表示为。这个特征图会由来经过 MLP 编码：

这个式子中的和的关系，满足上述投影关系。表示类别的index。

作者获得 integrated heatmap 就是将 PV 特征和这个融合到一起:

正如上述所说, 这个是会被监督的。最终的集成位置编码就是由这个得来的:

作者可视化了 heatmap，如下图(a)所示。可以看到，热强度分布与透视图中的地图实例之间存在很强的相关性。例如，在左图中的人行横道附近和两个城市的道路边界附近都有着更高的热强度。由于集成位置编码是直接从集成热图转换而来的，因此它本质上包含了可靠的融合混合先验。因此，将混合特征集成到位置编码的形成中，从两个角度强制解码由高质量先验指导，从而在BEV特征上实现高级解码性能。

关于 Enhancement BEV Feature

在DEM的框架内, BEV特征的隐式增强是通过利用源自BEV特征的BEV Enhancement Map 来实现的。然而, 由于增强特征和受监督的集成热图之间的内在关系, BEV增强图受到直接影响, 有意加强了BEV特征的表示。因此, 在混合输入的指导下, 以间接方式有效地增强了BEV的功能。

其中表示上采样层, “Cat"表示两部分的特征拼接融合。得到的强化版 BEV 特征最终会被送入地图元素解码器得到预测值。

上图的（b）和（c）直观地描绘了隐性增强前后BEV特征的差异。与（b）中原有的BEV特征相比，（c）中增强的BEV特征更强调地图实例信息的描述，特别是在道路边界和人行横道附近。就结果而言，这种通过隐式增强对BEV特征的选择性强调，本质上产生了一种与实际地图分布更紧密的表示。

关于loss

Heatmap Loss: Heatmap Loss 的目的是限制 DEM 中的增强过程。heatmap 与集成位置编码和 BEV 增强图密切相关。为了保证混合信息对的适当影响, 它由地图向量中存在的关键点形成的热力图进行监督。具体的做法和 centerpoint 很类似, 以地图向量 ground truth 的关键点为中心, 用恒定偏差的高斯核来投射到热力图上，最后用 focal loss 来计算损失反传:

Rasterized Instance Segmentation Loss: 为了平衡关键点着重的影响并避免忽略琐碎点, 作者在整体监督中引入了栅格化实例分割 (RIS)损失。对于预测向量，我们将分类分数分配给相应的像素以形成 BEV 掩码 , 而二元目标掩码由真实类别标签描述, 表示为one-hot向量。RIS 损失是 BEV 掩码和目标掩码之间的交叉熵损失: .
Total loss: 除此之外, 和 MapTR 一样, 作者利用 focal loss 来监督预测向量的类别, 并利用 L1 范数来监督几何特性, 其结果分别表示为分类损失和点对点损失。还继承了 MapTRV2的涉及边缘方向损失、辅助一对多损失、辅助密集损失的。论文中。

论文结果

作者在 nuScenes 和 Argoverse 2两个数据集上做了定性和定量的分析，也做了一些消融实验：

定性分析

在上图中给出了各种天气或照明条件下的可视化地图结构结果。黄色区域突出显示了地图预测与相应透视图线索之间的差异。与现有方法相比，HybriMap成功完全检测了沿路边的分区和侧向（例如第1行和第3行）以及远处的交叉路口（例如第2行），表明更利用了透视视图提示的有效性。

另外，由于用 heatmap loss的监督，该方法可以在一定程度上解决由遮挡或图像模糊引起的原始形成不完整的问题。如图上图第二行所示，蓝色阴影区域中的通道分隔线在原始输入中几乎不可见。在集成热图监督和特征增强的综合作用下，该区域的实例得到了强调并成功解码。然而，由于对原始输入的强烈依赖，在PV特征甚至难以提取的情况下，该方法仍会受到限制。例如，在上图第3行中，横向预测错误，存在一些方向偏移。

nuScenes上的结果

结果表明，该方法不仅在 general thresholds 和 tighter thresholds 集都达到了最先进的性能，而且收敛速度也明显加快。与现有方法相比，该方法在道路边界类中通常表现出最显着的改进。这种改进可以归因于充分利用透视先验，因为道路边界通常不仅表现出显着的颜色变化，而且还被明显的地面条件变化所包围，从而拥有来自原始输入的最丰富的线索。

Argoverse 2上的结果

为了进一步证明方法的广泛有效性，我们在更大的 Argoverse 2 上展示了实验结果，如下表所示。对于两个阈值集，HybriMap 分别比现有方法提高了 2.5% 和 5.2% 的 mAP。实验结果表明，该方法在一般和更严格的标准下，在地图预测方面始终取得更先进的结果。

消融实验

为了评估 dual enhancement 的效果，作者对 DEM 生成的两个输出（即集成位置编码和隐式增强的 BEV 特征）进行了单独的实验。下表展示了显式集成对位置嵌入和 BEV 增强的影响。这些增强分别使最终结果的 mAP 提高了 1.9% 和 1.0%。此外，双重增强可以利用两个增强分支的优势，从而显著提高 3.1% 的 mAP。

作者又进一步验证了所提出的损失函数（即 Heatmap Loss 和 RIS Loss）的影响。在和的共同影响下，整体结果的 mAP 提高了 1.7%。

总结

本文提出HybriMap来解决高精地图构建中的信息丢失问题。具体而言，作者设计了一种混合方法，以有效地重新利用来自原始输入的透视视图特征。此外，还采用了双增强模块，可同时提高解码性能和BEV性能。在数据集上的大量实验证明了该方法在高精地图构建中实现SOTA性能的优越性。期待上述研究能够为自动驾驶提供更可靠的地图支持，并为未来的高清地图研究做出贡献。

参考

[1] HybriMap: Hybrid Clues Utilization for Effective Vectorized HD Map Construction