

ICCV 2023｜OCBEV：以目标为中心的BEV感知新SOTA！

极市平台

2023-11-24

↑ 点击蓝字关注极市平台

作者丨Zhangyang Qi

来源丨自动驾驶之心

编辑丨极市平台

极市导读

OCBEV模型在多视图3D检测任务中证明了其有效性，尤其是在处理动态场景和减少训练时间方面。通过引入创新的时间融合、空间利用和解码器增强组件，该方法在nuScenes数据集上实现了最先进的性能。尽管如此，模型的泛化能力、计算效率和实时性仍需进一步探究，以确保其能在自动驾驶技术的不同方面和多样化的真实世界场景中得到广泛应用。 >>加入极市CV技术交流群，走在计算机视觉的最前沿

1. 写在前面&个人理解

随着自动驾驶技术的快速发展，对于高效且精确的3D检测方法的需求日益增长。OCBEV通过结合时间融合、空间利用和解码器增强等关键技术，显著提升了在复杂交通环境中检测和追踪目标的能力。特别是对于动态物体的检测，OCBEV通过其独特的object中心设计，在保持实时性的同时，实现了对目标运动状态的精确建模。今天带大家详细探讨下OCBEV的架构、性能以及在现有挑战中的优势和潜在的改进空间，为自动驾驶领域的研究者和实践者提供一个比较好的思路。

2. OCBEV的出发点

OCBEV在自动驾驶领域的多视角三维物体检测方面做出了重要贡献。与传统的单目检测器和基于激光雷达的方法相比，多视图检测器能够提供360度的视野，并且能够捕获丰富的语义信息，例如交通灯和车道线。这些多视图检测器主要分为基于object查询的方法和基于鸟瞰图（BEV）的解决方案，其中每种方法都有其优势和局限性。

尽管基于BEV的方法在空间和时间编码方面表现出色，但现有的多视图检测器在时间建模和空间利用方面存在明显的不足。为了克服这些不足，OCBEV结合了物体查询方法和查询BEV方法的优点，引入了三个创新模块来提高性能：

目标对齐的时间融合模块：这个模块通过使用历史位置和速度预测物体当前位置来改善特征表示，当与当前BEV特征融合时，能够更好地表示物体特性。
以目标为焦点的多视图采样模块：该模块预测特定场景下的本地高度，从而在这个高度区域密集采样3D点，确保更多的点在2D图像特征中命中物体。
目标信息查询增强模块：这个模块通过替换部分解码器查询，使用在编码器后的中心热图监督头得到的高置信度物体位置，从而加速整个网络的收敛速度。

OCBEV在nuScenes这一具有挑战性的基准测试中进行了广泛的实验评估，并取得了突破性的成果。它在视觉基方法中实现了最先进的结果，超过了经典的BEVFormer 1.5 NDS点，并且只需要一半的训练迭代次数就能获得可比的性能。总的来说，OCBEV的主要贡献在于通过深入设计克服了全局提取时间和空间方面的局限性，并提出了一个强大的BEV探测器，它能更有效地进行时间建模、空间利用，以及构建强大的解码器。

3. OCBEV的详细讲解

OCBEV提出的整体框架是一种先进的多视图3D目标检测方法，该方法在预定义的鸟瞰图（BEV）查询的基础上，综合应用了时间建模和空间利用技术。首先，OCBEV采用类似于BEVFormer的方式，对预定义的BEV查询进行编码，这个过程涉及到对历史BEV查询的时间建模以及对透视视图图像特征的空间利用。

在时间建模方面，OCBEV引入了一种名为“目标对齐的时间融合”（Object Aligned Temporal Fusion）的模块。这个模块的核心在于将历史BEV数据与当前数据相结合，不仅考虑静态背景，还特别关注移动物体。时间融合分为两个部分：一部分是针对自我运动（ego-motion）的时间融合，另一部分是针对物体运动（object-motion）的时间融合。融合完成后，模块会在这两个不同时间戳的BEV特征之间应用注意力机制，以增强模型对时间变化的敏感度。在空间利用方面，OCBEV采用了“以物体为焦点的多视图采样”（Object Focused Multi-View Sampling）方法。这个方法基于BEVFormer中的空间交叉注意力机制，通过预测物体集中区域内的自适应局部高度，来采样相应的密集3D点。这些3D点随后被投影到2D图像特征上，形成一个主要由移动物体组成的条形区域，从而提高了模型对空间信息的捕捉能力。

在编码过程完成后，OCBEV为解码器构建了一个名为“目标信息查询增强”（Object Informed Query Enhancement）的模块。这一模块通过一个热图头部来预测物体的中心位置，并用这些高置信度的位置来替换一些预定义的解码器查询，从而提供位置线索，加速整个网络的收敛。OCBEV通过将目标中心的时间融合、以目标为焦点的多视图采样以及目标信息查询增强等先进技术集成到一个框架中，大大提升了多视图三维物体检测的性能和效率。

3.1 Object Aligned Temporal Fusion

目标对齐的时间融合（Object Aligned Temporal Fusion）方法可以通过以下步骤和公式来描述：

自车运动的时间融合 (Ego-motion temporal fusion) : 设定先前时间櫂为和当前时间翟为。BEV查询分别表示为和 , 其扁平化版本表示为和。映射关系表示 , 其中对查询重叠。转换到参考框架的主要思想是使用偏航角和平移向量。选择的索引通过转换从到表示为和。公式表示为:

替换和融合操作可以表示为:

目标运动的时间融合 (Object-motion temporal fusion) : 假设在时间櫂有个移动物体。物体的实际坐标表示为 , 对应索引为在中。通过预测速度来找到对应索引在中并替换。预测的位置在参考框架中表示为。公式表示为:

替换和融合操作可以表示为:

将这两种融合方式结合起来, 物体对齐的时间融合可以表示为:

在这个过程中, 是在和时间嚾之间对齐和融合的BEV嵌入, 包含了自我运动和目标运动的时间融合。

3.2 Object Focused Multi-View Sampling

Object Focused Multi-View Sampling是一种用于从透视视图图像特征中提取信息的空间利用方法。这种方法特别考虑到大多数车辆，包括公共汽车和卡车，通常位于一个局部高度范围内。因此，该方法预测适应每个独特场景的自适应局部高度范围，这个高度范围能够包含大部分物体。

在实现中, 该方法基于BEVFormer中的可变形注意力 (deformable attention) 的空间注意力模块。对于特定的BEV查询 , 该方法定义了沿着轴的个柱状参考点。这些参考点在坐标上共享同一中心位置, 而在坐标上则均匀分布在高度范围内。因此, 可以表示为 , 意味着参考点的坐标在高度范围 , 内均匀分布。

空间注意力的公式如下所示:

其中, 是空间注意力, 输入包括BEV查询和高度范围。DAttn 是可变形注意力机制, 是查询, 是多视图图像特征（作为键和值）。是将参考点投影到多视图图像特征的投影函数。

在自动驾驶场景中, 大多数物体 (包括汽车、公共汽车和行人) 都位于一个局部高度范围内。例如, 在 nuScenes数据集中, 检测的全局高度范围是从-5米到 3 米。此外, 大多数移动物体集中在高度范围 [-2米, 2 米] 内。因此, 该方法定义了局部高度从-2 米到 2 米, 并预测每个场景的自适应偏移量来处理像公共汽车和卡车这样的高车辆。自适应局部高度表示为。

因此，以物体为焦点的多视图采样中的空间注意力可以表示为：

其中，OFSpaA表示以物体为焦点的多视图采样中的空间注意力，它是通过在全局高度范围和自适应局部高度范围中的3D参考点获得的空间注意力之和，以便聚焦于移动物体并加强BEV从图像特征中提取信息的能力。

3.3 Object Informed Query Enhancement

论文中提出的一种改进解码器的方法。该方法的核心思想是利用编码器的输出为解码器提供位置提示，从而改进原本基于DETR（DEtection TRansformer）风格随机预定义的查询方法。这种随机预定义的查询方法在所有场景中共享，导致网络收敛困难。在OCBEV的框架中，解码器不仅仅在编码器之后直接添加一个检测头，而是在编码器输出的基础上增加了一个热图头部。由于室外3D场景的范围较广，该方法更加专注于BEV平面中的位置信息，而不是其他属性如盒子大小、速度、属性等。为此，引入了在FCOS3D和Centernet中定义的物体中心度概念。物体中心度通过二维高斯分布表示，取值范围从零到一，并使用二值交叉熵损失来进行训练。

除了额外的热图监督之外，OCBEV还通过替换一部分预定义的查询，以提高解码器的性能。具体来说，在解码器变换器中，键和值是BEV编码器的输出特征。查询被分为内容嵌入和位置嵌入。原始的可变形DETR随机初始化内容嵌入、位置嵌入和参考点。然而，在OCBEV的框架中，使用具有高置信度分数的BEV点作为部分替换预定义参考点和位置嵌入的参考点，通过线性层实现替换，其输入为替换的参考点。这种方法为网络带来了有利的位置先验，使得网络能够更快地收敛。

4. 实验结果分析

实验结果显示，OCBEV模型在多种视觉3D检测器中进行了全面比较。特别值得注意的是，OCBEV模型在nuScenes检测验证集上取得了非常优秀的结果，达到了当时的最佳性能（State of the Art, SOTA）。与最新的BEVFormer模型相比，即使只进行了12个训练周期（Epochs），OCBEV模型也展现了优越的性能，并且在标准的24个训练周期后，这种性能差距还得到了扩展。在NDS（NuScenes Detection Score）指标上，OCBEV模型在12个训练周期后达到了0.523，在24个周期后进一步提升到0.532。对于mAP（平均精度均值）指标，OCBEV的性能也相当稳定，在两个训练周期设置中分别达到了0.408和0.417。

在运动状态指标（如mAOE和mAVE）上，OCBEV模型表现尤为出色，这强调了其在稀疏自动驾驶场景中对移动物体建模的能力。具体来说，OCBEV模型在mAOE（平均方向误差）上降低到了0.339，并在mAVE（平均速度误差）上降低到了0.333，在24个周期的训练中这一成绩得到了保持。同时，在mASE（平均尺度误差）和mAAE（平均属性误差）上，OCBEV模型也展现了较低的误差。OCBEV模型不仅在减少训练周期的情况下就能快速收敛，而且在核心性能指标上达到或超过了其他先进方法，特别是在处理运动物体的准确性方面表现突出。这些结果验证了OCBEV方法在稀疏自动驾驶场景中的有效性和效率。

在OCBEV模型的消融实验中，研究人员通过逐一添加或组合不同的关键组件——时间融合（Temporal Fusion）、空间利用（Spatial Exploitation）以及解码器增强（Decoder Enhancement）——来评估它们对模型整体性能的贡献。实验结果揭示了几个关键发现：

在没有任何特殊组件的基线情况下，模型的性能相对较低，NDS得分为0.371，mAP为0.316。
引入时间融合组件能显著提高性能，NDS增至0.413，mAP也有所提升，说明时间融合对于模型的性能至关重要。
空间利用组件的单独应用也能提高性能，表明空间信息在物体检测中的重要性。
解码器增强组件带来了mAP的显著提升，这表明精确的解码器设计对于最终检测精度非常关键。
各个组件的组合使用进一步提升了性能，特别是当所有三个组件同时使用时，模型达到了最优性能，NDS上升至0.448，mAP达到0.333。

这些实验结果表明，OCBEV模型中每个单独的组件都有效地提升了模型的性能，而这些组件的综合应用进一步增强了模型的性能，尤其在处理复杂场景下的3D物体检测任务时。通过这种综合方法，模型在提高检测精度和鲁棒性方面取得了显著的进步，证明了OCBEV在稀疏自动驾驶场景中对移动物体建模的有效性。

5. 相关讨论

OCBEV模型作为一种多视图3D检测的方法，在nuScenes数据集上展现了卓越的性能，尤其是在快速收敛和检测移动目标方面。该方法通过将时间融合、空间利用和解码器增强的先进技术相结合，不仅提高了检测精度，也加速了模型的训练过程，这对于发展快速有效的自动驾驶系统至关重要。然而，尽管OCBEV在特定测试集上表现优异，其在其他数据集上的泛化能力和实际应用中的计算效率仍然是潜在的挑战。此外，为了维持模型的性能和适应新的驾驶环境，可能需要定期的更新和训练，这可能增加了使用成本。总的来说，OCBEV在理论和实验层面为自动驾驶领域提供了一种强有力的方法，但在将其部署为实际应用的可行性方面还需要进一步的研究和改进。

6. OCBEV的结论

总结而言，OCBEV模型在多视图3D检测任务中证明了其有效性，尤其是在处理动态场景和减少训练时间方面。通过引入创新的时间融合、空间利用和解码器增强组件，该方法在nuScenes数据集上实现了最先进的性能。尽管如此，模型的泛化能力、计算效率和实时性仍需进一步探究，以确保其能在自动驾驶技术的不同方面和多样化的真实世界场景中得到广泛应用。