大数跨境
0
0

CVPR'23|DETR的潜力还可以再挖一下,基于 DETR 的跨域弱监督对象检测方法DETR-GA

CVPR'23|DETR的潜力还可以再挖一下,基于 DETR 的跨域弱监督对象检测方法DETR-GA 极市平台
2023-04-26
0
↑ 点击蓝字 关注极市平台
作者丨Garfield
编辑丨极市平台

极市导读

 

本文提出了一种名为DETR-GA的方法,用于跨域弱监督目标检测。该方法使用 DETR 架构,为编码器添加了多个类查询和为解码器添加了前台查询,以将语义聚合到图像级预测中。实验表明,在四个流行的跨域基准测试中,DETR-GA 的性能优于最先进的方法。 >>加入极市CV技术交流群,走在计算机视觉的最前沿

原文链接:https://arxiv.org/abs/2304.07082

2. 引言

图1

cross-domain问题是实际应用中object detection的关键挑战。具体来说,训练数据和测试数据之间通常存在domain的gap。当在source域上训练的检测器直接部署在新的target域上时,这种域差距会显着影响检测精度。为了解决这种gap,现有的领域适应方法可以分为有监督、无监督  和弱监督方法。在这三种方法中,弱监督方法是一个值得关注的方向,因为它只需要图像级别的注释,并且在适应效果和注释成本之间取得了很好的权衡。因此,本文关注的任务是cross-domain weakly supervised object detection(CDWSOD),旨在通过弱监督使检测器从源域适应目标域。

作者认为 DETR 风格的detection具有解决 CDWSOD 的巨大潜力。与目前由纯卷积神经网络检测器(“CNN 检测器”)主导的 CDSOD 方法相比,本文是第一个探索用于 CDWSOD 的 DETR 式检测器的论文。作者对 DETR 的乐观态度并不是因为它在通用对象检测中的流行或竞争结果。 作者们凭经验发现 DETR 风格的检测器在直接进行跨域部署方面几乎没有取得任何优于 CNN 检测器的优势。相反,本文的动机是基于洞察力,即 DETR 式检测器具有结合强监督和弱监督的优势,这对于 CDWSOD 至关重要。

CDWSOD 需要较弱的监督和图像级预测能力,这可以由 DETR 的注意力机制和远程建模能力,所以其中的编码器和解码器恰恰可以满足这些要求。为了充分利用 CDWSOD 中的弱监督信息,本文提出了DETR with additional Global Aggregation (DETR-GA)。DETR-GA 将基于注意力的全局聚合添加到 DETR 中,以便进行图像级预测,同时保留原始实例级预测。基本上,DETR 在解码器中使用多个对象查询来探测局部区域并给出实例级预测。在DETR的基础上,DETR-GA做了两个简单而重要的改变:对于编码器/解码器,它分别增加了多个类query/一个foreground的query来聚合整个图像的语义信息。总体而言,DETR-GA 利用对编码器和解码器的弱监督将检测能力从源域转移到目标域。实验结果表明,DETR-GA 大大提高了跨域检测精度。

3. 方法

3.1 Overview

首先来定义一下任务:与弱监督对象检测中仅利用目标域的弱监督不同,CDWSOD 旨在通过弱监督使检测器从源域适应目标域。在源域中,每个图像都有带有对象类和边界框的实例级注释,而在目标域中,每个图像只有多类标签,指示存在哪些类。

对于DETR,它是Facebook提出的基于Transformer的端到端目标检测网络,发表于ECCV2020。它是一种新型的物体检测算法,采用了Transformer网络结构,将物体检测问题转化为一个集合预测问题,通过全局损失函数来实现端到端的训练和推理。DETR通过消除传统物体检测算法中的anchor、NMS等复杂设计,实现了简单高效的物体检测。

对于DETR-GA的整体结构 如上图所示,DETR-GA 将源图像和目标图像的混合作为其输入。为了充分利用弱监督,DETR-GA 在编码器和解码器中为原始检测器补充了图像级预测。鉴于编码器和解码器的图像级预测能力,DETR-GA 有助于在源域和目标域上进行联合训练。编码器通过弱监督在源域和目标域中对齐类语义。之后,解码器通过混合监督(即对源的强监督和对目标的弱监督)进一步将对象检测能力从源传递到目标。

鉴于来自编码器和解码器的额外图像级预测,DETR-GA 能够结合弱监督和强监督。具体来说,编码器从“源+目标”域 接收弱监督。解码器从“源+目标”域 接收弱监督,同时从目标域 . 此外,进一步在主干上添加了一些常见的做法 ,即使用对抗损失 进行域级对齐和图像级分类损失 。在训练期间,作者提出结合所有描述的损失函数以端到端的方式优化 DETR-GA,而整个过程中三个部分也是分别进行优化的:

3.2 Encoder with Class Queries

在提出的方法中,编码器使用class query将语义聚合为图像级预测。class query被添加到encoder中,每个查询对应于一个特定的类。在训练过程中,监督较弱的课堂查询能够大致定位相应的位置,排除来自非相关区域的干扰。编码器使用二进制分类器来预测第 i 个类别的存在。在推理期间,编码器不需要图像级预测,无需额外计算成本即可恢复标准的 DETR pipeline。

其中 attn(query, key, value) 表示注意力层,上标 表示第 个转换器块。在注意力层之后有层范数和前馈网络(FFN),为简洁起见,此处省略。

3.3 Decoder with Foreground and Object Queries

自注意力更新公式如下:

其中“[]”是concatenate操作,self是selfattention层。我们采用与 DN-DETR [27] 中相同的自注意层,并在补充中提供了详细描述。

下面的交叉注意力更新公式如下:

其中 attn(query, key, value) 表示注意力层, 是纠缠内容和位置嵌入的操作(例如,DAB-DETR [31] 和 DN-DETR [27] 中的连接操作)。前景查询具有空位置嵌入,如图1所示,因此可以被视为消除了位置嵌入的影响。位置嵌入更新与DN-DETR中相同,此处省略。

在 DETR-GA 的编码器和解码器中使用基于query的聚合进行弱监督对象检测的关键优势在于,它可以促进图像级预测的全局聚合。解码器中的对象查询和前台查询在类语义上达成共识,使得强监督和弱监督在域对齐方面互惠互利。编码器中的弱监督类查询能够大致定位相应的位置,排除来自非相关区域的干扰。

4. 实验

该论文使用了四个数据集进行方法评估,其中包括PASCAL VOC、Claript、Calicarous和Comic。PASCAL VOC 数据集用作带有实例级注释的源域,而其他三个艺术绘画数据集则用作带有图像级注释的目标域。VOC 0712 的分裂被用作源域训练数据,它提供了大约 16.5 万个 20 个物体类别的真实世界图像。剪贴画数据集有列车分割和测试分割,两者都包含 20 个对象类别的 500 张图像。

所提出的方法 DETR-GA 显著提高了跨域检测精度并推进了最先进的技术。该方法在PASCAL VOC与Claript all数据集上的mAp提高了29.0%至79.4%。该方法在剪贴画、水彩和漫画数据集上的表现也优于最先进的方法。结果证明了所提出的跨域弱监督目标检测方法的有效性。

可以发现本文提出的每一个组件也都是有用的,都带来了性能上的增益。而原始的DETR从某种程度上来说,虽然有优秀的结构,但似乎不太适合进行跨域检测。这个消融实验向我们证明了论文提出方法的有效性。

从前景和后景图的attention map也可以发现本文提出方法的作用。

5. 讨论

本文有一些局限性,包括:

  • 所提出的方法仅限于跨域场景,在其他设置中可能表现不佳。
  • 该方法依赖于弱监督,监督可能并不总是可用的,或者可能无法提供足够的信息来进行准确检测。
  • 所提出的方法可能不适用于检测小型物体或形状复杂的物体。
  • 实验是在有限数量的数据集上进行的,并且尚未充分探讨将所提出的方法推广到其他数据集的问题。
  • 所提出的方法可能需要大量的计算资源,可能不适合实时应用。

本文提出了一些未来可以做的工作来改进所提出的方法。这些包括:

  • 探索在 CDWSOD 中使用其他基于注意力的模型。
  • 研究不同类型的弱监督方法对所提方法的影响。
  • 探索使用其他类型的查询进行全局聚合。
  • 研究将其他类型的域适应技术与提出方法相结合的使用情况。
  • 探索将所提出的方法用于其他计算机视觉任务,例如语义分割和实例分割。

6. 结论

本文提出了一种名为DETR-GA的方法,用于跨域弱监督目标检测(CDWSOD)。该方法使用 DETR 架构,为编码器添加了多个类查询和为解码器添加了前台查询,以将语义聚合到图像级预测中。编码器中的类查询有助于聚合与类对应的全局语义,而解码器中的前台查询与对象查询相关联,从而将强监督和弱监督相结合,有利于域对齐。实验表明,在四个流行的跨域基准测试中,DETR-GA 的性能优于最先进的方法。

公众号后台回复“CVPR2023”获取最新论文分类整理资源

极市干货

极视角动态「无人机+AI」光伏智能巡检,硬核实力遇见智慧大脑!「AI 警卫员」上线,极视角守护龙大食品厂区安全!点亮海运指明灯,极视角为海上运输船员安全管理保驾护航!

CVPR2023CVPR'23 最新 125 篇论文分方向整理|检测、分割、人脸、视频处理、医学影像、神经网络结构、小样本学习等方向

数据集:自动驾驶方向开源数据集资源汇总医学影像方向开源数据集资源汇总卫星图像公开数据集资源汇总

极市平台签约作者#


Garfield


武汉大学计算机学院19级本科生 

研究领域:通用视觉以及开放世界的机器学习,

主要聚焦于完成AI模型在真实场景的部署。



投稿方式:
添加小编微信Fengcall(微信号:fengcall19),备注:姓名-投稿
△长按添加极市平台小编

点击阅读原文进入CV社区

收获更多技术干货

【声明】内容源于网络
0
0
极市平台
为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
内容 8155
粉丝 0
极市平台 为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
总阅读7.6k
粉丝0
内容8.2k