

NeurIPS 2023｜港科大&华为提出CoDA：开放词汇3D目标检测新网络

极市平台

2024-01-24

↑ 点击蓝字关注极市平台

作者丨CVer

来源丨CVer

编辑丨极市平台

极市导读

本论文提出的CoDA包含了协同式新物体发掘与跨模态对齐方法(Collaborative Novel Box Discovery and Cross-modal Alignment)，解决了开放词汇3D目标检测中的Novel类别物体定位和分类问题。 >>加入极市CV技术交流群，走在计算机视觉的最前沿

CoDA: Collaborative Novel Box Discovery and Cross-modal Alignment for Open-vocabulary 3D Object Detection

论文地址：https://arxiv.org/pdf/2310.02960

Github:https://github.com/yangcaoai/CoDA_NeurIPS2023

研究背景：

计算机视觉中的3D目标检测 (3D Object Detection)是一项重要而具有挑战性的任务，在自动驾驶、工业制造和机器人等领域有着广泛的应用。然而，传统的3D目标检测方法通常依赖于预定义的已知类别(Base Categories)集合，无法有效处理新类别物体的检测，但在实际应用场景中通常会出现新物体类别(Novel Categories)，导致传统3D目标检测出错。为了解决这一关键问题，开放词汇3D目标检测(Open-Vocabulary 3D Object Detection)开始得到关注。开放词汇3D目标检测模型可以在应用(测试)场景中，灵活地调整要检测的类别列表和检测新类别，更加贴近实际场景。如Fig. 1所示，开放词汇3D目标检测模型CoDA只由绿色框label训练，但可以检测到蓝色框标注的物体。目前开放词汇3D目标检测这个研究方向刚刚发展，研究空间大。

该NuerIPS2023论文专注于开放词汇3D目标检测，提出了一种名为CoDA的协同式新物体发掘与跨模态对齐方法(Collaborative Novel Box Discovery and Cross-modal Alignment)，以在训练中同时学习对新类别物体的定位和分类。首次在不引入2D物体检测模型的前提下实现了开放词汇3D目标检测，检测效果在SUN-RGBD上超过其他方法80%以上。该研究工作的代码和模型已全部开源在https://github.com/yangcaoai/CoDA_NeurIPS2023

主要贡献：

本论文的主要贡献如下：

提出了端到端的开放词汇3D检测框架CoDA，该框架通过设计协同式3D新物体发掘(3D Novel Object Discovery)与发掘驱动的跨模态对齐方法(Discovery-driven Cross-modal Alignment)解决了开放词汇3D目标检测中对新类别物体进行定位和分类问题。

设计了3D Novel Object Discovery (3D-NOD)模块，通过利用3D几何先验和2D开放语义先验，实现了对新类别对象的定位。

设计了Discovery-Driven Cross-Modal Alignment (DCMA)模块：基于3D-NOD发现的新物体，对3D点云、2D图像、文本之间进行跨模态对齐，实现了对新类别对象的分类。

在两个具有挑战性的数据集SUN-RGBD和ScanNet上进行了广泛的实验评估，验证了CoDA框架的效果优势。

框架：

CoDA框架由以下关键组件组成：3D Novel Object Discovery (3D-NOD)模块、Discovery-Driven Cross-Modal Alignment (DCMA)模块。一方面，3D-NOD模块利用3D几何先验和2D开放语义先验生成新对象的伪标签，以实现对新类别物体的定位。另一方面，DCMA基于3D-NOD发现的新物体，对3D点云、2D图像和文本进行跨模态对齐，实现了对新类别物体的分类。

技术细节：

3D Novel Object Discovery (3D-NOD):

在3D-NOD模块中，利用3D几何先验和2D开放词汇语义先验生成新类别的伪标签。具体而言，3D检测器的定位头(Localization head)预测3D box，然后基于相机参数将3D box映射到2D图像上的2D box，取出对应的2D物体区域，再通过CLIP的image encoder得到2D image features，继而和CLIP的text encoder输出Open Categories的text features计算相似矩阵，以得到2D开放词汇语义先验。同时，3D检测器的分类头(Classification head)会输出3D几何先验(分类头预测的objectness得分)。当2D开放词汇语义先验和3D几何先验

都超过阈值，并且和已知物体标签的IoU小于0.25，则认定该物体为新类别物体，并更新到novel label pool里。随着训练，novel label pool和模型都得到了迭代式的更新。

Discovery-Driven Cross-Modal Alignment (DCMA):

DCMA模块基于novel label pool，通过类别匿名的特征蒸馏(Class-Agnostic Distillation)和类别特定的特征对齐(Class-Specific Contrastive Alignment)，在更广的语义上进行跨模态对齐。详细而言，每个object query会预测得到(3D box，3D objectness, 3D object features)。在Class-Agnostic Distillation Module，每个3D box会映射到2D图像上的2D box，再取出对应的2D物体区域，继而输入到CLIP Image Encoder中得到2D object features，然后对该2D object features和与之对应的3D object features计算蒸馏loss(L1 loss)，到此实现了3D和2D features的对齐。在Class-Specific Contrastive Alignment Module中，会把预测的3D box与novel label pool里的伪label和人工标注的已知类别label进行二分图匹配(Bipartite Matching)，以此为该3D box匹配到类别text标签，再对3D features和text features进行contrastive loss，到此实现了3D和text features对齐。综上所述，DCMA实现了3D、2D和text features之间的对齐。

消融实验：

围绕着CoDA的两个核心创新点3D-NOD和DCMA，该论文做了一系列消融实验，如Tab. 1所示，相对于3DETR+CLIP的朴素的开放词汇检测方法，CoDA取得了显著的提升。当去掉3D-NOD时，效果显著下降，证明了3D-NOD本身带来了显著提升。当把DCMA替换成朴素的跨模态对齐时，3D-NOD+DCMA的效果有显著优势，证明了DCMA相对于其他对齐的优越性。

在训练过程中，该论文持续监控评测了中间模型的检测效果。可以看到在进入3D-NOD阶段后，Novel类别的AP和AR都得到了显著提升，显示了3D-NOD的有效性。

实验结果：

本研究在两个具有挑战性的3D数据集SUN-RGBD和ScanNet进行了广泛的实验评估。在Tab. 4和Tab. 5可以看到，CoDA框架对Novel类别和已知类别(Base Category)的检测取得了显著的性能优势。从Fig. 4和Fig. F中，CoDA能够准确检测到蓝色框框住的Novel category物体，同时对绿色框框住的Base category物体的检测也更加准确。

结论：

本论文提出的CoDA包含了协同式新物体发掘与跨模态对齐方法(Collaborative Novel Box Discovery and Cross-modal Alignment)，解决了开放词汇3D目标检测中的Novel类别物体定位和分类问题。实验证明，CoDA在Novel类别检测上具有显著的性能优势。未来，可以进一步改进CoDA框架，比如采用更强的检测框架、更强的2D开放词汇模型等思路，提高其在更复杂场景和真实应用中的鲁棒性和泛化能力。