极市导读
本文提出了 Siamese DETR,这是一种用于 DETR 中的 Transformer 架构的 Siamese 自我监督预训练方法。该方法在 COCO 和 PASCAL VOC 检测中实现了最先进的性能。 >>加入极市CV技术交流群,走在计算机视觉的最前沿

原文链接:https://arxiv.org/abs/2303.18144
代码链接:https://github.com/Zx55/SiameseDETR
DETR是Facebook团队于2020年提出的基于Transformer的端到端目标检测,克服了传统目标检测的anchor机制和非极大值抑制NMS,大大简化了目标检测的pipeline。DETR利用标准Transformer架构来执行传统上特定于目标检测的操作,从而简化了检测pipeline。DETR总体思路是把检测看成一个set prediction的问题,并且使用Transformer来预测box的set。
multi-view self-supervised representation learning的研究取得了新的进展,这可能会减轻在训练 DETR 以进行对象检测时对标记数据的需求。然而,这些自监督学习方法主要侧重于学习具有基础模型的可泛化的representation,例如 ResNets和 ViTs。目前尚不清楚如何使用专为end-to-end对象检测量身定制的特定于任务的 Transformers 模块,将这些方法有效地扩展到 DETR。
在这项工作中,作者致力于研究multi-view self-supervised representation learning对 DETR 预训练的有效性。不同于传统的多视图框架,论文将 Siamese 网络与 DETR 中的交叉注意力机制相结合,提出了一种名为 Siamese DETR 的 Siamese 自监督训练方法。并提出了两个 self-supervised的代理任务。具体来说,给定每个未标记的图像,通过直接在增强视图之间定位查询区域并在全局和区域级别最大化判别信息。在预训练期间,Siamese DETR 可以学习具有与下游对象检测任务一致的定位和辨别力的invariant representations。
本文的贡献是:
-
将Siamese 与DETR中的交叉注意力机制相结合,提出了一种名为Siamese DETR的Siamese 自监督预训练方法,其中包含两个专门用于视图不变检测预训练的自监督的代理任务。 -
设计两个自监督的代理任务:multi-view的区域检测和语义识别。 -
在所有setting中,相较于使用不同策略的的变体DETR方法,本文提出的方法在 COCO 和 PASCAL VOC 检测中实现了最先进的性能。
3. 方法
3.1 DETR的模型结构
DETR 模型的典型架构由两个主要组件组成:
-
backbone模型:这通常是卷积神经网络 (CNN),用于从输入图像中提取特征。主干模型提取给定图像的图像级特征。
-
具有encoder-decoder架构的transformer:然后,从主干模型中提取的特征通过一系列具有encoder-decoder架构的transformer。Transformer 编码器将图像级特征作为输入,并将其编码为global的context。然后,Transformer 使用这个全局上下文来预测图像中存在的对象集。总而言之,主干模型提取图像级特征,然后通过Transformer编码器对全局环境进行编码。然后,Transformer 解码器使用这个全局上下文来预测图像中存在的对象集。
3.2 View Construction
该方法从为每个未标记的图像 x 生成两个视图 { } 开始,允许模型在自监督检测预训练中学习视图不变的对象级表示。如图 3 所示,我们引入了一个 IoU 约束策略来平衡两个视图之间的共享信息。首先,我们在图像中生成一个随机矩形,覆盖大部分内容(50% 到 100%)。然后使用矩形的中心点作为锚点来创建两个子矩形。通过沿对角线来随机对子矩形进行拓展,我们获得了两个 IoU 大于阈值 τ = 0.5 的矩形。从图像中裁剪出两个矩形作为最后两个视图 { }。
3.3 Multi-view Detection Pretraining
是的,我可以解释多视图区域检测任务在暹罗DETR中是如何运作的,以及它的目标是什么。
Siamese DETR 中的多视角区域检测任务旨在通过两个互补的任务同时学习视图不变和以检测为导向的表示。该任务的工作原理如下:
-
对输入图像进行增强,以创建同一图像的多个视图。
-
然后,增强视图通过SiamDETR网络传输。
-
网络经过训练,可以预测输入图像每个视图中的感兴趣区域 (ROI)。
-
然后比较每个视图的预测投资回报率,以确定所有视图的常见投资回报率。
-
然后,使用常见的 ROI 来训练网络学习视图不变和以检测为导向的表示形式。
多视图区域检测任务旨在通过学习视图不变和面向检测的表示来实现更好的物体检测性能。通过训练网络预测同一图像的多个视图的常见投资回报率,网络学会识别图像中与物体检测相关的最重要区域。这有助于通过聚焦图像中最相关的区域来提高物体检测的准确性。
3.4 代理任务
Siamese DETR 在同时学习视图不变表示法和以检测为导向的表示法时考虑的两项互补任务是:
-
Multi-View Region Detection:此任务旨在学习在输入的增强视图之间定位感兴趣区域。 -
Multi-View Semantic Discrimination:此任务试图改善每个区域的对象级区分。
Siamese DETR 在表示学习方法方面不同于其他自监督方法,具体如下:
-
Siamese DETR是专门为DETR中的Transformer架构设计的,专为端到端的物体检测量身打造。其他自监督方法主要侧重于学习具有基础模型的可泛化表示,例如 ResNets 和 ViTs。
-
Siamese DETR 考虑在一个新颖的多视图学习框架中通过两个互补任务(即定位和辨别)同时学习视图不变和面向检测的表示。其他自监督方法可能不会考虑这些特定任务或框架。
-
Siamese DETR 使用两个自监督借口任务,多视图区域检测和多视图语义辨别,来实现其表示学习目标。其他自监督方法可能使用不同的借口任务或任务组合。
总的来说,Siamese DETR 采用了一种独特的表示学习方法,该方法专为 DETR 中的 Transformer 架构量身定制,并专注于通过特定任务和框架学习视图不变和面向检测的表示。
4. 实验
该论文使用COCO和PASCAL VOC检测数据集来评估新方法与其他方法相比的性能。
Siamese DETR 在所有设置中使用不同的 DETR 变体在 COCO 和 PASCAL VOC 检测上实现了最先进的传输性能。具体来说,Siamese DETR 在所有设置上使用三种不同的 DETR 变体实现了最佳性能,并且在指标中采用更严格的 IoU 阈值时,它在大多数情况下实现了更可观的性能领先。
在 COCO 和 PASCAL VOC 检测数据集的性能方面,对于迁移学习,Siamese DETR 无需微调即可优于 UP-DETR 和 deTreg。结果如本文的所示,其中 Siamese DETR 在所有设置中使用三种不同的 DETR 变体实现了最佳性能。特别是对于多尺度的可变形 DETR,Siamese DETR 在基线上的增强模型比 UP-DETR 和 deTreg 更显著,这表明了我们的设计与不同 DETR 架构的兼容性。
可视化也可以发现论文提出的方法的确有助于准确的attention定位。
5. 讨论
本文的局限性在于,SiamDETR仍然依赖预训练的CNN,例如SwaV,而没有将CNN和Transformer集成到统一的预训练范式中。该论文表明,在未来的工作中,需要一个更有效的端到端DETR预训练框架。这意味着该论文的作者认为,DETR模型的训练方式还有改进的余地,他们希望将来能开发出更好的方法。
6. 结论
本文为DETR模型提出了一种名为Siamese DETR的新型自监督预训练方法。该方法涉及两个借口任务,即多视图区域检测和多视图语义辨别,旨在同时学习视图不变和面向检测的表达。Siamese DETR 在所有设置中使用不同的 DETR 变体,在 COCO 和 PASCAL VOC 检测中实现了最先进的传输性能。作者认为,在未来的工作中,需要一个更有效的端到端DETR预训练框架。

公众号后台回复“CVPR2023”获取最新论文分类整理资源
极视角动态:「无人机+AI」光伏智能巡检,硬核实力遇见智慧大脑!|「AI 警卫员」上线,极视角守护龙大食品厂区安全!|点亮海运指明灯,极视角为海上运输船员安全管理保驾护航!
CVPR2023:CVPR'23 最新 125 篇论文分方向整理|检测、分割、人脸、视频处理、医学影像、神经网络结构、小样本学习等方向
数据集:自动驾驶方向开源数据集资源汇总|医学影像方向开源数据集资源汇总|卫星图像公开数据集资源汇总
# 极市平台签约作者#
Garfield
武汉大学计算机学院19级本科生
研究领域:通用视觉以及开放世界的机器学习,
主要聚焦于完成AI模型在真实场景的部署。
“
点击阅读原文进入CV社区
收获更多技术干货

