大数跨境
0
0

港中文最新SOTA!HybriMap:充分利用PV 和BEV特征,nuScenes大涨4%!

港中文最新SOTA!HybriMap:充分利用PV 和BEV特征,nuScenes大涨4%! 极市平台
2024-05-06
0
↑ 点击蓝字 关注极市平台
作者丨Chi Zhang
来源丨自动驾驶之心
编辑丨极市平台

极市导读

 

本文提出HybriMap来解决高精地图构建中的信息丢失问题。具体而言,作者设计了一种混合方法,以有效地重新利用来自原始输入的透视视图特征。此外,还采用了双增强模块,可同时提高解码性能和BEV性能。 >>加入极市CV技术交流群,走在计算机视觉的最前沿

写在前面 & 笔者随笔

在自动驾驶的规划任务中,地图信息的重要性是不言而喻的。但是传统的SLAM离线建高精地图,不仅流程也复杂,成本也比较昂贵,所以行业里大家都在“卷”无图NOA。在线构建地图信息,车道线、斑马线、道路路沿等等,也得到越来越多的关注。HDMapNet, VectorMapNet, MapTRv2等等都是一些先前之作。这篇论文还是把静态地图的信息,用2D的vector来表示,通过网络的设计,提升了在 nuScenes 和 Argoverse 2数据集上的精度,实现SOTA。接下来,笔者将从相关工作(前人怎么做?)、论文动机 (为什么要做?)、论文方法(具体怎么做?)和论文结果(做的怎么样?)这三个方面,阐述这项工作。

相关工作

矢量化高精地图的构建

HDMapNet 涉及语义分割和实例编码的后处理过程,使地图能够以矢量化形式表示静态元素。后续研究普遍采用端到端网络来实现高精地图构建。有几种方法使用贝塞尔曲线 (Bezier curve) 来表示地图实例并通过参数曲线估计来预测高清地图。另一种主流的方法是将地图元素表示为 2D 向量。VecterMapNet 将地图构建构建为矢量检测问题。MapTR 和 MapTRv2 完成了地图向量表示,并以更具体的方式细化了整个检测流程。

跨视图信息利用

跨视图信息的利用是地图学习领域的一个典型主题。PyOccNet 通过金字塔网络将透视图( perspective-view,PV)特征转换为 BEV,保留输入中的多尺度信息。现有的跨视图变换会激活不同视图特征之间的相互响应,以增强目标域中的特征。也有些论文在地图视图下实现分割时涉及图像视图特征和相机编码。BEVFormerV2 是对 PV 特征进行后处理和编码,从而增强了网络对 BEV 特征的解码能力。ScalableMap 在源自 PV 特征的两个分支上采用融合模块来增强 BEV 特征。

论文动机

对于在线地图生成的任务,之前的一些论文通常可以分为以下三个步骤:

  1. 图像主干网络,用于从输入图像中提取透视图 (PV) 特征;
  2. 交叉视图转换网络,用于将 PV 特征投射到鸟瞰图;
  3. 基于transformer的 BEV 解码器,用于生成最终的地图预测。

然而,交叉视图转换网络的复杂性在前阶段数据丢失方面带来了重大挑战,特别是 PV 特征。以 MapTRv2 为例,这种先验损失问题通常表现为输入 PV 图像与最终地图预测之间的差异。如下图,蓝色区域中突出显示的车道分隔线在左图中可见,但在 MapTRv2 中却无法检测到。此外,黄色圆圈指示的道路边界在右图中似乎超出了交叉口,但 MapTRv2 将其错误预测为一个小实例。

直观地讲,上述前阶段数据丢失问题可以通过再次利用具有空间先验的 PV 特征来解决。然而,值得注意的是,PV 特征通常包含大量来自天空和建筑物等不相关类别的冗余信息,因为 BEV 地图预测只需要地图元素。相反,尽管跨视图转换网络产生的 BEV 特征表示遭受先验损失,但与 PV 特征相比,它会关注更有意义和更复杂的元素。那么问题就来了:我们如何才能有效地保留 PV 和 BEV 特征中包含的真正有用的信息呢?这就促使了这篇工作 —— Hybrid approach of HD Map construction (HybriMap)。

简单来说,该模型结构涉及一个并行通道,来充分利用 PV 和 BEV 的特征来有效构建高清地图。作者设计了一个 Dual Enhancement Module (DEM),通过显式集成混合特征和隐式升级 BEV 特征来实现特征增强。DEM 的显式分支融合从 PV 特征获得集成位置编码,并协助后续解码;隐式分支专注于提取 BEV 特征中的有价值线索。模型具体结构和方法见下一章节。

论文方法

模型输入:来自 N 个相机的 RGB 图片;
模型输出: 个地图实例, 有 个类别, 每个实例由 个 2 D向量来表示。

模型结构主要包括以下几个模块,按顺序分为:

  1. Image Backbone: 输入多视角的图片, 用 Resnet50 提取图片特征, 得到 PV 特征 ;
  2. PV-to-BEV: 从 PV 特征中提取 BEV 特征 ,作者使用 LSS 作为默认方法;
  3. Dual Enhancement Module: 这个模块, 用上述两个步骤得到的特征, 作为输入, 输出两个东西:集成位置编码 (Integrated Positional Embedding) 和增强版的 BEV 特征。具体做法, 待会细说;
  4. Map Element Decoder: 这个模块是基于transformer设计的解码器, 直接输出所需的预测值。利用了 hierarchical query 作为query 和 增强版 BEV 特征作为 value。位置编码使用了全局可学习的位置编码, 配合上步骤 3 中输出的集成位置编码。

关于 Dual Enhancement Module

那么具体这个 Dual Enhancement Module 模块怎么设计的呢?详见下面这张图:

BEV 特征会 downsample 得到 , 再 upsample, 拼接原来的特征, 经过 的卷积得到一个增强版 BEV 特征。与此同时, 会用到相机参数, 投影到图片坐标系, 与原来得到的 PV 特征, 生成一个 heatmap, 然后再转化成一个集成位置编码。值得一提的是, 这里的 heatmap 是会被监督的。

关于Integrated Positional Embedding

PV 和 BEV 信息被显式合并在 DEM 的这个分支中生成集成位置编码。Deformable DETR 中提出,位置编码不仅充当输入信息的装饰元素,而且还在生成参考点方面发挥作用,而这些参考点会作为地图向量的初始估计。通过将混合特征合并到位置编码中,解码的特征表示和向量估计变得更容易接受从混合信息导出的线索。

假设 个级联的卷积层。首先用多个卷积层从 BEV 特征 中下采样得到 :

这里的 是一个预先定义好的下采样系数。将 投影到透视视角, 通过给一个固定的高度, 将一个 坐标 用 相机的参数 投影到像素坐标系:

对于每个类别, 都会生成一个 PV 特征, 表示为 。这个特征图会由 来经过 MLP 编码:

这个式子中的 的关系,满足上述投影关系。 表示类别的index。

作者获得 integrated heatmap 就是将 PV 特征 和这个 融合到一起:

正如上述所说, 这个 是会被监督的。最终的集成位置编码就是由这个 得来的:

作者可视化了 heatmap,如下图(a)所示。可以看到,热强度分布与透视图中的地图实例之间存在很强的相关性。例如,在左图中的人行横道附近和两个城市的道路边界附近都有着更高的热强度。由于集成位置编码是直接从集成热图转换而来的,因此它本质上包含了可靠的融合混合先验。因此,将混合特征集成到位置编码的形成中,从两个角度强制解码由高质量先验指导,从而在BEV特征上实现高级解码性能。

关于 Enhancement BEV Feature

在DEM的框架内, BEV特征的隐式增强是通过利用源自BEV特征的BEV Enhancement Map 来实现的。然而, 由于增强特征 和受监督的集成热图之间的内在关系, BEV增强图 受到直接影响, 有意加强了BEV特征的表示。因此, 在混合输入的指导下, 以间接方式有效地增强了BEV的功能。

其中 表示上采样层, “Cat"表示两部分的特征拼接融合。得到的强化版 BEV 特征 最终会被送入地图元素解码器得到预测值。

上图的(b)和(c)直观地描绘了隐性增强前后BEV特征的差异。与(b)中原有的BEV特征相比,(c)中增强的BEV特征更强调地图实例信息的描述,特别是在道路边界和人行横道附近。就结果而言,这种通过隐式增强对BEV特征的选择性强调,本质上产生了一种与实际地图分布更紧密的表示。

关于loss

  1. Heatmap Loss: Heatmap Loss 的目的是限制 DEM 中的增强过程。heatmap 与集成位置编码和 BEV 增强图密切相关。为了保证混合信息对 的适当影响, 它由地图向量中存在的关键点形成的热力图进行监督。具体的做法和 centerpoint 很类似, 以地图向量 ground truth 的关键点为中心, 用恒定偏差的高斯核来投射到热力图上,最后用 focal loss 来计算损失反传:
  1. Rasterized Instance Segmentation Loss: 为了平衡关键点着重的影响并避免忽略琐碎点, 作者在整体监督中引入了栅格化实例分割 (RIS)损失 。对于预测向量 ,我们将分类分数 分配给相应的像素以形成 BEV 掩码 , 而二元目标掩码 由真实类别标签描述, 表示为one-hot向量 。RIS 损失是 BEV 掩码和目标掩码之间的交叉熵损失: .

  2. Total loss: 除此之外, 和 MapTR 一样, 作者利用 focal loss 来监督预测向量的类别, 并利用 L1 范数来监督几何特性, 其结果分别表示为分类损失 和点对点损失 。还继承了 MapTRV2的涉及边缘方向损失、辅助一对多损失、辅助密集损失的 。论文中

论文结果

作者在 nuScenes 和 Argoverse 2两个数据集上做了定性和定量的分析,也做了一些消融实验:

定性分析

在上图中给出了各种天气或照明条件下的可视化地图结构结果。黄色区域突出显示了地图预测与相应透视图线索之间的差异。与现有方法相比,HybriMap成功完全检测了沿路边的分区和侧向(例如第1行和第3行)以及远处的交叉路口(例如第2行),表明更利用了透视视图提示的有效性。

另外,由于用 heatmap loss的监督,该方法可以在一定程度上解决由遮挡或图像模糊引起的原始形成不完整的问题。如图上图第二行所示,蓝色阴影区域中的通道分隔线在原始输入中几乎不可见。在集成热图监督和特征增强的综合作用下,该区域的实例得到了强调并成功解码。然而,由于对原始输入的强烈依赖,在PV特征甚至难以提取的情况下,该方法仍会受到限制。例如,在上图第3行中,横向预测错误,存在一些方向偏移。

nuScenes上的结果

结果表明,该方法不仅在 general thresholds 和 tighter thresholds 集都达到了最先进的性能,而且收敛速度也明显加快。与现有方法相比,该方法在道路边界类中通常表现出最显着的改进。这种改进可以归因于充分利用透视先验,因为道路边界通常不仅表现出显着的颜色变化,而且还被明显的地面条件变化所包围,从而拥有来自原始输入的最丰富的线索。

Argoverse 2上的结果

为了进一步证明方法的广泛有效性,我们在更大的 Argoverse 2 上展示了实验结果,如下表所示。对于两个阈值集,HybriMap 分别比现有方法提高了 2.5% 和 5.2% 的 mAP。实验结果表明,该方法在一般和更严格的标准下,在地图预测方面始终取得更先进的结果。

消融实验

为了评估 dual enhancement 的效果,作者对 DEM 生成的两个输出(即集成位置编码和隐式增强的 BEV 特征)进行了单独的实验。下表展示了显式集成对位置嵌入和 BEV 增强的影响。这些增强分别使最终结果的 mAP 提高了 1.9% 和 1.0%。此外,双重增强可以利用两个增强分支的优势,从而显著提高 3.1% 的 mAP。

作者又进一步验证了所提出的损失函数(即 Heatmap Loss 和 RIS Loss)的影响。在 和 的共同影响下,整体结果的 mAP 提高了 1.7%。

总结

本文提出HybriMap来解决高精地图构建中的信息丢失问题。具体而言,作者设计了一种混合方法,以有效地重新利用来自原始输入的透视视图特征。此外,还采用了双增强模块,可同时提高解码性能和BEV性能。在数据集上的大量实验证明了该方法在高精地图构建中实现SOTA性能的优越性。期待上述研究能够为自动驾驶提供更可靠的地图支持,并为未来的高清地图研究做出贡献。

参考

[1] HybriMap: Hybrid Clues Utilization for Effective Vectorized HD Map Construction

公众号后台回复“数据集”获取100+深度学习各方向资源整理

极市干货

技术专栏:多模态大模型超详细解读专栏搞懂Tranformer系列ICCV2023论文解读极市直播
极视角动态欢迎高校师生申报极视角2023年教育部产学合作协同育人项目新视野+智慧脑,「无人机+AI」成为道路智能巡检好帮手!
技术综述:四万字详解Neural ODE:用神经网络去刻画非离散的状态变化transformer的细节到底是怎么样的?Transformer 连环18问!

点击阅读原文进入CV社区

收获更多技术干货

【声明】内容源于网络
0
0
极市平台
为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
内容 8155
粉丝 0
极市平台 为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
总阅读7.6k
粉丝0
内容8.2k