RTDETR 作为应对 DETR 模型在实时性及小目标检测场景局限而研发的改进方案,通过对模型架构的深度重构与训练策略的精细优化,实现了检测效率与精度的双重跃升。该模型舍弃传统检测算法中的非极大值抑制(NMS)步骤,采用端到端训练范式,在VisDrone无人机数据集环境下,达成了45FPS的实时推理速度,小目标检测精度(AP_S)提升至 24.3%,相较于原始 DETR 提高了 56%[13]。其核心创新点在于引入混合编码器、动态稀疏注意力机制,并结合多尺度特征融合策略,有效化解了无人机图像中密集小目标的特征提取难题与计算效率瓶颈。
RTDETR 的编码器采用独特的双路径混合设计模式。其中一条路径专门用于处理高分辨率细节特征,借助轻量化卷积层,直接获取下采样率为 8 倍的高分辨率特征图,以此完整保留微小目标的边缘与纹理等关键信息,为后续精准检测微小目标奠定基础。另一条语义路径则运用 Transformer 编码器,对下采样 32 倍的低分辨率特征实施全局上下文建模,让模型能够充分把握图像的整体语义与目标间的上下文关联。这两条路径所生成的特征,借助通道注意力机制实现动态融合。具体而言,融合权重由可学习参数矩阵依据图像特征动态调整,确保在不同场景下,不同尺度的特征信息能够得到有效整合,提升特征的丰富度与有效性。
在多尺度特征融合环节,RTDETR 提出跨尺度特征融合模块(CCFM),CCFM 模块致力于解决不同尺度特征间的有效融合问题,为提升模型在多尺度目标场景下的识别效能,特别是针对密集分布的小型目标的检测精度,优化算法架构实现性能增强,结构如下图所示。在无人机图像中,目标尺度变化范围大,从远处的微小目标到近处的较大目标均有涉及,CCFM 模块通过特定机制,能够将不同层级、不同分辨率的特征进行合理整合。它首先对来自不同路径、不同尺度的特征进行初步处理,使其在维度和特征表达上具备可融合性。在融合过程中,采用类似残差连接的方式,保留原始特征中的关键信息,避免在融合时造成信息丢失。同时,模块内还融入了注意力机制,这里的注意力机制并非简单的通道注意力,而是综合考量空间位置与通道信息的注意力机制。
解码器部分,RTDETR 提出局部-全局协同注意力机制。该机制将特征图细分为 8×8 的区域,并在这些区域内独立计算注意力权重,从而将计算复杂度由传统的二次方级别降低到一次方级别,极大提升计算效率。
为进一步提升模型鲁棒性,RTDETR 在训练策略方面进行了多方面优化。在学习率调度上,采用渐进式地学习策略。在训练的早期阶段,采用较小的学习率(1e - 4)对骨干网络参数进行微调,此阶段着重让模型适应数据特征,稳定基础参数。随着训练推进,逐步将学习率增大至 5e-5,用于优化解码器参数,以提升模型对目标检测结果的生成能力。
微信公众号:人工智能感知信息处理算法研究院

