极市导读
论文提出一种新颖的基于伪标签的自适应学习框架LiSe。LiSe使用2D场景中的丰富语义信息增强无监督3D目标检测,同时提出自适应采样策略与弱模型聚合提升对难样本的识别。多个数据集上的量化实验与定性分析验证了提出框架的有效性,尤其是远小物体的检测能力得到显著提升。>>加入极市CV技术交流群,走在计算机视觉的最前沿
论文:https://arxiv.org/abs/2407.08569
代码:https://github.com/Ruiyang-061X/LiSe
知乎解读:https://www.zhihu.com/question/660698707/answer/3575967153
引用:
@inproceedings{zhang2024approaching,
title={Approaching Outside: Scaling Unsupervised 3D Object Detection from 2D Scene},
author={Zhang, Ruiyang and Zhang, Hu and Yu, Hang and Zheng, Zhedong},
booktitle={Proceedings of the European conference on computer vision (ECCV)},
year={2024}
}
摘要
无监督的3D目标检测旨在在无明确监督信号的情况下,准确检测非结构化环境中的物体。在这种任务中,由于激光雷达点云稀疏以及空间分辨率有限,往往会导致在检测远处或小型物体时表现不佳。
在本文中,我们首次尝试将激光雷达数据与2D图像结合用于无监督的3D检测,并提出了一种新方法,称为LiDAR-2D自适应学习(LiSe)。我们认为,RGB图像是激光雷达数据的重要补充,特别是在某些物体的激光雷达点稀少时,它们提供了精确的2D定位线索。鉴于这两种模态的独特特性,我们的框架设计了一种自适应学习流程,其中包括自适应采样和弱模型聚合策略。自适应采样策略在训练过程中动态调整伪标签的分布,以应对模型过拟合易检测样本(如近距离和大尺寸物体)的趋势,从而确保在不同物体尺度和距离上的平衡学习轨迹。弱模型聚合组件整合了在不同伪标签分布下训练的模型的优势,最终形成一个强大而稳健的最终模型。实验评估验证了我们提出的LiSe方法的有效性,在nuScenes数据集上,相比现有技术,AP_BEV提高了7.1%,AP_3D提高了3.4%;在Lyft数据集上,AP_BEV提高了8.3%,AP_3D提高了7.4%。
介绍
在本文中,我们提出了一种新颖的LiDAR-2D自适应学习(LiSe)方法,用于无监督的3D检测,它将激光雷达数据与2D图像结合在一起。其目标是利用2D场景中丰富的纹理和RGB颜色信息,克服激光雷达在检测远距离和小型物体时的局限性(见图1)。我们采用多次遍历方法进行基于激光雷达的3D伪标签生成,同时使用2D检测和分割方法进行基于图像的3D伪标签生成。我们观察到,这两种模态在不同距离和分辨率的物体上是互补的,并且可以作为良好的初始种子。然后,我们应用自适应训练策略传播目标标签并优化预测。在训练过程中,我们观察到模型容易过拟合于常见类别,例如汽车,并逐渐失去检测相对稀有物体(如自行车)的能力。为了缓解此类长尾样本检测能力的减弱问题,我们引入了一种自适应采样策略,根据模型的反馈动态调整训练数据的分布。因此,我们可以在训练过程中获得在不同数据分布下训练的快照,这些快照本质上具有互补的关注点。我们进一步提出弱模型聚合策略,在自适应学习过程中融合所有快照权重,作为最终模型。我们进行了广泛的定量实验和定性分析,以验证我们方法的有效性。总之,我们的贡献总结如下:
-
鉴于激光雷达数据的固有稀疏性,我们提出了LiSe,联合利用2D图像和3D激光雷达来改善各个范围内的伪标签质量。2D图像中的丰富纹理能够直观地发现小型和远距离的物体。 -
针对自训练中物体分布不平衡的问题,我们提出了自适应采样策略,明确强调长尾物体,随后通过弱模型聚合,将不同快照的优势迭代融合到最终稳定模型中。 -
在nuScenes和Lyft数据集上进行的大量实验验证了所提出方法的有效性,无论是AP_3D还是AP_BEV指标都显著超越了现有技术。尤其在远距离检测(50-80米)中,AP_BEV指标甚至超过了完全监督模型。
方法
激光雷达数据与2D场景的融合
基于激光雷达的3D伪标签。 在我们的工作中,我们采用多次遍历方法从激光雷达数据中提取重要的物体。我们计算每个点τ(u)的点持续性得分(ppScore),以量化该点是否属于不变或变化的物体。通过计算得到的ppScore,我们采用一种同时考虑ppScore相似性和点之间实际几何距离的聚类过程,将整个点云分割为不同的簇。最后,对每个簇应用现成的边界框拟合算法,生成3D框。
基于图像的3D伪标签。 我们采用开源词汇范围的2D检测器,例如GroundingDINO,首先在图像中识别具有辨识度的物体。为了从图像中估计3D框,我们应用了从3D到2D的投影过程。对于投影在掩码中的2D点,我们保留其对应的3D点。随后,我们应用区域增长算法来获取包含最多点的聚类。随后,根据该聚类估计紧密的外部3D边界框。
激光雷达与2D场景的融合。 为了增强来自激光雷达和图像的伪框在训练模型中的融合,我们采用了一种距离感知策略(见图2)。该方法充分利用了两种数据源的互补特性。首先,我们确定一个预定义的范围,然后选择性地将该范围内图像生成的框与激光雷达生成的框结合在一起。考虑到近距离的物体通常表现出高密度的激光雷达点,仅依靠激光雷达数据通常就足以进行精确估计。我们的距离感知策略通过调整范围值,灵活排除这些近距离区域中的图像生成框,以避免与激光雷达生成框的潜在冲突。
自适应采样策略
尽管将2D场景集成到3D伪框中能够召回遗漏的远距离和小型物体,模型在训练过程中仍倾向于偏向更容易的样本,例如近距离或大型物体。因此,我们提出了一种自适应采样策略,在整个训练阶段动态平衡不同物体(见图3)。我们首先提出了基于距离-体积的度量方法,利用3D世界中的一般属性(即距离和体积)对物体进行分类。基于该距离-体积度量,我们在训练前计算初始物体分布,并在训练后计算推理分布。我们分析这两个分布之间的差异:对于在推理分布中概率显著增加的物体组,我们在下一轮训练中自适应地对这些物体进行下采样。相反,对于推理过程中概率降低的物体组,我们相应地自适应上采样这些物体组。
弱模型聚合
在不同轮次中获得的模型往往在不同的物体组上表现更为出色,自适应采样策略分配了不同的采样比例。不同轮次中获得的模型各自具有独特的偏差,缺乏全面的检测能力。因此,我们将这些模型称为“弱模型”,并引入了弱模型聚合,将这些弱模型结合起来,生成一个更稳健、强大的模型(见图3)。我们从第T_s轮开始选择一个模型作为初始化。类似于权重平均方法,我们将后续轮次中的每个弱模型与之前聚合的强模型进行平均,所得模型作为当前轮次的强模型。我们引入了一个聚合系数λ,以平衡前一强模型与当前弱模型的影响。
基于伪标签的自适应学习
我们将集成的伪标签、自适应采样策略和弱模型聚合统一到一个自适应学习过程中(见图3)。具体而言,该过程包括两个阶段:种子训练和自训练。在种子训练阶段,使用集成的伪标签B_final训练一个初始检测器Θ_0。自训练是一个迭代过程,重复进行T轮。在第t轮中,由上一轮训练得到的检测器Θ_t−1首先在训练集上进行推理,以获取当前轮次的伪训练标签。然后,使用我们提出的自适应采样策略重新分配这些伪训练标签,以应对模型偏向易检测物体组(如近距离和大物体)的倾向。接着,利用更新后的伪标签训练新的检测器θ_t。弱模型聚合将当前轮次的弱模型θ_t与上一轮的强模型Θ_t−1聚合,形成当前轮次的强模型Θ_t。与普通的自训练不同,在我们的过程中,伪训练标签的分布根据模型反馈进行调整,从而形成了一个自适应学习过程。
实验
我们展示了nuScenes的结果,观察到LiSe显著优于所有现有方法(见表1)。特别是,与最先进的OYSTER相比,LiSe在0-80米范围内的AP_BEV提升了7.1%,AP_3D提升了3.4%。在其他距离范围内,如0-30米、30-50米和50-80米,LiSe也始终超越OYSTER,表现出普遍增强的检测能力。这些改进验证了我们提出的2D场景融合、自适应采样策略和弱模型聚合在提升模型整体检测能力方面的有效性。值得注意的是,LiSe在远距离(50-80米)上的AP_BEV甚至超过了完全监督结果。这些结果进一步证实了2D场景理解的引入显著增强了远距离和小型物体的检测能力。
我们在Lyft数据集上进一步进行了实验,使用了与nuScenes相同的超参数(见表2)。我们观察到,所提出的LiSe在所有评估指标上均超越了竞争对手MODEST。更重要的是,LiSe在远距离(50-80米)范围内的AP_BEV提升了19.4%,AP_3D提升了18.9%,这对整体性能提升贡献最大。这些结果验证了我们提出方法的有效性和广泛适用性。
结论
在本文中,我们介绍了用于无监督3D检测的LiSe框架。我们提出了与2D场景的融合,以提升在远距离和小型物体上的检测能力。在自适应学习过程中,我们进一步提出了自适应采样策略,以持续提升在挑战性样本上的感知能力。此外,我们引入了弱模型聚合,将在不同分布下训练的模型结合成一个最终的稳健模型。大量实验验证了我们方法的优越检测能力。全面的消融研究和定性分析也证明了每个提出模块的有效性。我们希望我们的工作能够推动2D与3D数据在无监督3D目标检测中的融合,并激发未来在相关领域的研究。

公众号后台回复“数据集”获取100+深度学习各方向资源整理
极市干货

点击阅读原文进入CV社区
收获更多技术干货

