

DiffusionDet论文解读：将目标检测重塑为去噪扩散过程

USTC大规模智算实验室

2025-08-08

导读：DiffusionDet论文解读：将目标检测重塑为去噪扩散过程

论文标题：DiffusionDet: Diffusion Model for Object Detection
发表会议：ICCV 2023
核心贡献：首次将目标检测任务范式化为一个从随机噪声框到精确物体框的去噪扩散过程，实现了检测器在推理阶段对检测框数量和迭代步数的动态调整，展现了优异的灵活性和性能。

一、引言：从固定先验到随机生成

现代目标检测方法的发展历程，很大程度上是围绕“候选框”（Object Candidates）的演进展开的。从早期依赖人工设计的密集锚框（Anchor-based），到以DETR为代表的、使用固定数量可学习查询（Learnable Queries）的端到端检测器，研究者们一直在追求更简洁、更高效的检测范式。

然而，即便是基于查询（Query-based）的方法，其在训练阶段固定的查询数量也限制了其在推理时的灵活性。例如，一个使用300个查询训练的模型，在面对包含上千个物体的拥挤场景时，会因候选框不足而表现不佳。

针对这一问题，DiffusionDet提出了一种全新的思路：彻底摒弃可学习的查询或任何形式的固定先验，直接从纯随机噪声框中逐步生成最终的检测结果。这一方法的核心思想是将目标检测任务重新定义为一个生成式的去噪扩散过程，如下图所示，其理念与扩散模型在图像生成领域的应用一脉相承。

图1

二、核心方法：从噪声到物体的逐步求精

DiffusionDet的框架遵循了扩散模型的经典设计，包含正向加噪（训练）和反向去噪（推理）两个核心阶段。

1.训练阶段：正向扩散过程

在训练时，模型学习如何从噪声中恢复信号。具体流程如Algorithm 1所述：

1.数据准备：取一张图像及其对应的真实物体框（Ground-Truth Boxes）。为适应不同图像中物体数量不一的情况，首先将真实物体框填充（padding）到一个固定的数量N_train。

2.加噪过程：对填充后的物体框坐标（中心点、宽高）施加一个预设调度（schedule）的高斯噪声。随着噪声的增加，精确的物体框会逐渐退化为随机分布的噪声框。

3.学习目标：模型以图像特征为条件，输入这些加噪后的“噪声框”，其任务是预测出未加噪的原始物体框。损失函数采用集合预测损失（set prediction loss），与DETR和Sparse R-CNN类似。

2.推理阶段：反向去噪过程

推理阶段是训练过程的逆向执行，模型从纯噪声中逐步“雕琢”出精确的物体框。如Algorithm 2所示，其流程如下：

1.初始化：无需任何先验知识，直接生成一组服从高斯分布的随机框。

2.迭代求精：模型进行多步迭代，每一步都旨在将当前的框向更“干净”的状态推进。单次迭代包含以下关键操作：

o预测：将当前步骤的框作为提案（proposals）输入到检测头（Detection Head），预测出对应的物体类别和更为精确的框坐标。

o更新：采用DDIM采样策略，结合当前框和模型的预测，估算出下一个（噪声更少的）步骤的框状态。

o框更新（Box Renewal）：这是一个关键的策略。在每步迭代后，模型会识别出置信度较低的预测框（即未成功匹配到物体的框），并将它们替换为新的随机噪声框。这一步使得推理过程与训练时噪声框的分布保持一致，对性能提升至关重要。

三、模型架构：解耦与迭代

图2

为了高效地支持上述迭代式的去噪过程，DiffusionDet设计了一套解耦的架构，如上面的图中所示。整个模型分为两个主要部分：

1.图像编码器(Image Encoder):这一部分是标准的特征提取网络，例如使用ResNet或Swin Transformer，并结合特征金字塔网络(FPN)来生成多尺度的特征图。在推理时，图像编码器只需运行一次，提取出图像的深层特征表示。这种设计避免了在每次去噪迭代中重复计算图像特征，极大地提升了推理效率。

2.检测解码器(Detection Decoder):这是模型的核心创新所在。它接收来自图像编码器的特征图、当前步骤的候选框以及一个时间步嵌入（timestep embedding）作为输入。其内部结构如图2（b）所示，借鉴了Sparse R-CNN的设计，由6个级联的解码器阶段（Stage）组成。在每个阶段，模型都会对输入的候选框进行一次优化。

与传统方法最大的不同在于，DiffusionDet的整个检测解码器（即由6个阶段组成的完整检测头）可以在多次去噪迭代中被重复使用。时间步嵌入t在这里扮演了关键角色，它告诉具有共享参数的解码器当前处于去噪过程的哪一步，从而使解码器能够执行与该步骤相适应的去噪操作。这种 “检测头复用”机制是实现迭代式评估（Iterative Evaluation）的基础，也是DiffusionDet区别于Cascade R-CNN等多阶段检测器的根本特征，后者每个阶段的参数是独立的，且在一次前向传播中只使用一次。

四、关键特性：前所未有的灵活性

这种基于随机生成和迭代求精的范式，赋予了DiffusionDet两个显著的优势：

1.动态评估框数量

由于推理过程始于随机框，训练和评估阶段的候选框数量得以完全解耦。这意味着可以用N_train个框进行训练，而在推理时根据场景需要，灵活选用任意数量N_eval的框。

如图3（a）所示，当评估时使用的框数量从300增加到4000时，DiffusionDet的AP持续稳定提升。相比之下，DETR在增加查询数量后性能出现下降。

表1

这一特性的威力在零样本迁移任务中得到充分体现。如表1所示，将在COCO数据集上训练的模型直接用于拥挤的CrowdHuman数据集测试，DETR和Sparse R-CNN性能大幅下降，而DiffusionDet仅通过增加评估框数量和迭代步数，AP就能分别提升5.3和4.8，展现了对复杂场景的强大适应性。

2.迭代式评估

DiffusionDet的迭代特性允许用户在推理速度和检测精度之间进行权衡。如论文Figure 3b所示，增加迭代步数可以持续提升模型的检测精度。用户可以根据应用场景的需求选择合适的迭代次数，例如在要求高实时性的场景下使用较少步数，在追求高精度的离线任务中使用更多步数。

五、实验结果与分析

DiffusionDet在多个标准基准上均表现出强大的竞争力。

·COCO数据集：根据表2的数据，使用ResNet-50骨干网，在单步迭代、300个候选框的设定下，DiffusionDet达到45.8AP，显著高于Faster R-CNN(40.2AP)和DETR(42.0AP)，并优于Sparse R-CNN(45.0AP)。通过增加迭代步数或候选框数量，性能可进一步提升。

表2

·CrowdHuman数据集：除了前述的零样本迁移能力，在对CrowdHuman数据集进行完整微调后，如表3所示，DiffusionDet同样取得了优于其他方法的性能，证明了其在处理密集场景上的有效性。

六、结论

DiffusionDet成功地将扩散模型的生成能力引入到目标检测任务中，提出了一种新颖且高效的检测范式。它通过一个从“噪声到框”的去噪过程，摆脱了对传统锚框或可学习查询的依赖。其核心优势在于无与伦比的灵活性——能够动态调整评估时的候选框数量和迭代步数，从而自适应地应对从稀疏到拥挤的各种场景，并在速度与精度之间取得平衡。扎实的实验结果也证明了该框架的有效性和巨大潜力。

【声明】内容源于网络

USTC大规模智算实验室

大规模计算智能（LIC）实验室由包括中科大在内的多所高校教授联合共建，主要研究方向有系统网络、联邦学习和大模型AI。实验室以智算网络系统平台为硬件支撑，以多名硕博组成的高素质团队为人才基础，参与过多项重点项目，发表过多篇高水平论文。

内容 14

粉丝 0

USTC大规模智算实验室大规模计算智能（LIC）实验室由包括中科大在内的多所高校教授联合共建，主要研究方向有系统网络、联邦学习和大模型AI。实验室以智算网络系统平台为硬件支撑，以多名硕博组成的高素质团队为人才基础，参与过多项重点项目，发表过多篇高水平论文。

总阅读11

粉丝0

内容14