大数跨境
0
0

ICCV2023|66.0 AP!商汤提出Co-DETR:基于协作混合分配训练的DETR

ICCV2023|66.0 AP!商汤提出Co-DETR:基于协作混合分配训练的DETR 极市平台
2023-07-31
2
↑ 点击蓝字 关注极市平台
作者丨GlobalTrack
编辑丨极市平台
本文首发于极市平台,转载须经授权并注明来源插入公众号名片。

极市导读

 

本文提出了一种新颖的协作混合分配训练方案,即 Co-DETR,从多种标签分配方式中学习更高效、更有效的基于 DETR 的检测器。在 COCO test-dev 上创下了66.0 AP的新记录,是COCO test-dev 上第一个超过 66.0 AP 的模型。 >>加入极市CV技术交流群,走在计算机视觉的最前沿

论文链接:https://arxiv.org/pdf/2211.12860.pdf

源码链接:https://github.com/Sense-X/Co-DETR

简介

目标检测是计算机视觉中一项基础任务,它要求对目标进行定位和分类。RCNN家族和一系列变体(ATSS、RetinaNet、FCOS等)导致目标检测任务的重大突破。一对多标签分配时它们核心方案,其中每个GT框被分配到检测器输出中的多个坐标,作为与建议框、锚框或窗口中心合作的监督目标。尽管这些检测器具有良好的性能,但它们很大程度上依赖于许多人工设计的组件,如NMS或锚框生成。为了实现更灵活的端到端检测器,提出了DETR,将目标检测视作为集合预测问题,并引入了基于Transformer编码器-解码器架构的一对一集合匹配方法。以这种方式,每个GT框将金杯分配给一个特定查询,并不需要对先验知识进行编码的多个人工设计的组件。这系列方法引入了一个灵活地检测框架,并鼓励许多DETR变体进一步改进。然而,普通的端到端检测器性能仍然不如具有一对多标签分配的传统检测器。

本文试图将基于DETR的检测器优于传统检测器,同时保持其端到端有点。为了应对这一挑战,重点关注一对一集合匹配的直观缺点,即探索了不太积极的查询。本文从编码器产生的潜在表示和解码器的注意力学习两个方面对此进行了详细的分析。首先比较了Deformable DETR和one-to-many标签分配方法之前潜在特征可分辨形得分,其中简单地用ATSS头代替解码器。每个空间坐标的特征 范数用于表示可分辨得分。给定编码器输出 ,可以获得可分辨分数图 。当对应区域的分数较高时目标能更好地被检测。图2给出了在可分辨分数上使用不同阈值IoF(与前景交叉比例,Interaction over foreground)-IoB(与背景交叉比例,Interaction over background)曲线。ATSS中较高的IoF-IoB曲线意味着容易分辨前景和背景。在一对多标签分配方法中,一些显著区域的特征被充分激活,但在一对一集合匹配中很少被探索。为了探索解码器训练,还展示了基于Deformable -DETR和Group-DETR解码器中交叉注意力得分的IoF-IoB曲线,该曲线将更多的正查询引入到解码器中。

这一观察结果促使提出一种简单但有效的方法,即写作混合任务训练架构(Collaborative Hybrid Assignment Training,Co-DETR)。Co-DETR关键简介是使用通用的一对多标签分配提高编码器训练效率和解码器训练效率和有效性。更具体的,将辅助头与Transformer编码器输出集成在一起。这些头可以通过多功能的一对多标签分配进行监督(如ATSS、FCOS和Faster RCNN)。不同标签分配丰富了对编码器输出的监督,这迫使它具有足够的鉴别能力,以支持这些头部训练收敛。为了进一步提高解码器训练效率,精心编码了这些辅助头中正样本坐标,包括锚框和正建议框。它们呗作为多组正查询传入解码器,以预测预先分配的类别和边界框。每个辅助头中正坐标作为一个独立的组,与其他组隔离。通用的一对多标签分配可以引入大量(正查询、GT)对,以提高解码器的训练效率。另外在推理期间仅使用原始解码器,因此所提出的训练方案尽在训练期间引入额外计算开销。

本文方法

协作混合任务训练

为了缓解解码器中较少的正查询导致的对编码器输出的稀疏监督,本文结合了具有不同一对多标签分配范式的通用辅助头,如ATSS和Faster R-CNN。不同的标签分配丰富了对编码器输出的监督,这迫使它具有足够的鉴别力,以支持这些头部训练收敛。具体地,给定编码器的潜在特征 ,首先通过多尺度适配器将其转换为特征金字塔 ,其中J表示具有 下采样步长的特征图。与ViTDet类似,特征金字塔是由但尺度编码器的单个特征图构建的,而本文能使用双线性插值和3x3卷积进行上采样。例如,对于来自编码器的单尺度特征,一次应用下采样(3x3与步长为3的卷积)或上采样操作产生特征金字塔。对于多尺度编码器,只对多尺度编码器特征 中最粗糙特征进行下采样,以构建特征金字塔。定义k个具有相应标签分配方式的协作头 ,对于第i个协作头,向其发送 以获得预测 。对于第i头, 用于计算 中正样本和负样本的监督目标。定义 是GT集合,正负样本确定可以描述为:

是空间正坐标集合。 是监督目标的相应坐标,包括类别和回归偏移。

回归损失在负样本丢弃。优化K个辅助头的训练目标可以描述为:

自定义正查询生成

在一对一集合匹配范式中,每一个GT框只分配给一个特定查询作为监督目标。整查询过少会导致Transformer解码器中交叉注意力的学习效率低下。为了缓解这种情况,本文根据每个辅助头中标签分配 精心生成了足够多的定制正查询。给定第i辅助头的正坐标 ,额外的自定义正查询 生成可以描述为:

表示位置编码,从 根据索引对选择对应特征。

因此,在训练期间,有K+1组查询有助于单个一对一匹配分支,并且有K个分支具有一对多标签分配。辅助一对多标签分配分支与原始主分支中L个解码器层共享相同的参数。辅助分支中所有查询都被视为正查询,因此丢弃了匹配过程。具体地,第i辅助分支中第l解码器层的损失可以公式化为:

是第l解码器层第i辅助分支的输出预测。Co-DETR的训练目标可以描述为:

Co-DETR性能提升原因

Co-DETR可以获得与DETR相比明显提升。在下文中,我们试图定性和定量地研究其有效性。

丰富编码器监督

直观地,太少的正查询会导致稀疏的监督,因为对于每个GT,只有一个查询收到回归损失的监督。以一对多标签分配方式的正样本接收到更多的定位监督。为了进一步探索稀疏监督如何阻碍模型训练,本文详细研究了编码器产生的潜在特征。给定编码器的潜在特征 ,这里计算IoF与IoB。给定第j级别编码器的特征 ,首先计算 范数 ,重塑到图像尺寸 。判别性分数通过平均化所有级别分数得到:

图3给出了ATSS、Derformable-DETR和本文Co-Deformable-DETR判别性分数可视化结果。与Deformable-DETR相比,ATSS和Co-Deformable-DETR都有更强的能力识别关键目标的区域,而Deformable-DETR几乎都被背景干扰。定义背景和前景的指示器 ,$\mathbb{I}(\mathcal{D}(\mathcal{F})<s)\in \mathbb{r}^{h\times="" s}$。对于全景的掩码$\mathcal{m}^{fg}\in="" w}$,如果点(h,w)在前景则为1,否则为0。<="" p="">

与前景重叠面积(IoF)可以描述为:

IoB计算也类似。图2通过改变S值给出了不同检测模型IoF与IoB曲线。可以看出ATSS和Co-Deformable-DETR在相同IoB值下可以比Deformable-DETR和Group-DETR互动二更高的IoF。这表明编码器表示受益于一对多标签分配。

通过减少匈牙利匹配不稳定性提升交叉注意力学习

匈牙利匹配是一对一集合匹配和核心方案。交叉注意力帮助正查询编码丰富目标信息的重要操作。该过程需要足够的训练实现。观察到匈牙利匹配算法引入了不可控的不稳定性,因为训练过程中,分配给同一图像中特定查询的GT正在发生变化。图5中给出了不稳定的比较,发现本文方法有助于实现更稳定匹配过程

实验

表2给出了本文方法与DETR系列方法的实验结果比较。首先将协作混合任务应用于具有C5特征的单尺度DETR。Conditional-DETR和DAB-DETR在长训练周期基础上都获得了2.4%和2.3%AP增益。对于具有多尺度特征的Deformable-DETR,检测性能从37.1%显著提高到42.9%。当训练周期增加到36周期时,总体改进仍然有效。

基于Deformable DETR++,本文进一步将backbone容量从ResNet-50扩展到Swin Transformer。表3所示本文方法实现了56.9%AP,并且与Swin-L相比以很大优势超过了baseline(+1.7%AP)。

表4给出了将K=2的方法应用于Deformable DETR++与SOTA方法性能比较。与比较的方法相比,本文方法收敛地更快。例如,当仅使用具有ResNet-50 backbone的12周期时,Co-DINO-Deformable-DETR容易地实现51.2%AP。使用Swin-L的DINO-Deformable-DETR性能仍然可以从58.5%提升到59.5%AP。更重要的是,本文的最佳模型Co-DINO-Deformable-DETR++在36周期训练下,使用ResNet-50实现了54.0%的AP,使用Swin-L实现了60.0%的AP,比所有现有的具有相同主干的检测器都有很大的优势

公众号后台回复“极市直播”获取100+期极市技术直播回放+PPT

极市干货

极视角动态2023GCVC全球人工智能视觉产业与技术生态伙伴大会在青岛圆满落幕!极视角助力构建城市大脑中枢,芜湖市湾沚区智慧城市运行管理中心上线!
数据集:面部表情识别相关开源数据集资源汇总打架识别相关开源数据集资源汇总(附下载链接)口罩识别检测开源数据集汇总
经典解读:多模态大模型超详细解读专栏

点击阅读原文进入CV社区

收获更多技术干货


【声明】内容源于网络
0
0
极市平台
为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
内容 8155
粉丝 0
极市平台 为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
总阅读197
粉丝0
内容8.2k