极市导读
MambaRefine-YOLO 用双门控 Mamba 融合 RGB-IR,加 HFAN 精炼颈部,DroneVehicle 83.2% mAP 领先 7.9%,VisDrone 单模态亦 SOTA。>>加入极市CV技术交流群,走在计算机视觉的最前沿
-
论文标题: MambaRefine-YOLO: A Dual-Modality Small Object Detector for UAV Imagery -
作者: Shuyu Cao, Minxin Chen, Yucheng Song, Zhaozhong Chen, Xinyou Zhang -
机构: 西南交通大学 -
论文地址: https://arxiv.org/abs/2511.19134 -
投稿信息: Submitted to IEEE Geoscience and Remote Sensing Letters (GRSL)
引言
大家好,今天想和大家聊一篇非常有意思的新工作,来自西南交通大学的研究者们提出的MambaRefine-YOLO。这篇论文可以说是精准地抓住了当前无人机(UAV)视觉领域的一个核心痛点:如何在复杂多变的场景下,准确、高效地检测出那些又小又模糊的目标。
无人机航拍图像中的小目标检测一直是个难题。想象一下,在高空中,地面的车辆、行人都会变得非常小,分辨率低,还很容易和乱七八糟的背景混在一起。为了解决这个问题,很多研究开始尝试融合可见光(RGB)和红外(IR)两种模态的数据——毕竟,RGB图像在光照好的时候细节丰富,而IR图像在夜晚或伪装场景下又能根据热信号“看穿”目标。
然而,怎么把这两种信息完美地融合起来,同时还不增加太多计算负担,一直是个“鱼与熊掌不可兼得”的问题。现有方法要么融合得不够智能,要么就是为了追求全局信息而引入了计算量巨大的Transformer架构。
这篇论文的作者们另辟蹊径,巧妙地将最近大火的状态空间模型(State-Space Model, SSM)Mamba引入到了YOLO检测器中,设计了一套既能智能融合双模态信息,又能高效增强多尺度特征的全新框架。最终效果非常亮眼,在权威的DroneVehicle数据集上,他们的模型取得了83.2%的mAP,比基线模型足足提升了**7.9%**,达到了新的SOTA水平。
接下来,我们就一起深入看看他们是如何做到的。
01 MambaRefine-YOLO的整体架构
首先,我们来看一下MambaRefine-YOLO的整体设计。整个架构非常清晰,主要包含两大核心创新:一个用于特征提取和融合的双流Mamba主干网络,以及一个用于特征精炼的分层特征聚合颈(Hierarchical Feature Aggregation Neck, HFAN)。
如上图所示,RGB和IR图像分别进入两个并行的处理流。在主干网络的C2到C5四个不同尺度上,作者都部署了他们精心设计的双门控互补Mamba融合模块(Dual-Gated Complementary Mamba Fusion Module, DGC-MFM)。这个模块是实现高效智能融合的关键。融合后的特征会被送入HFAN中进行多尺度的精炼和聚合,最后由一个多尺度检测头输出最终的检测结果。这个“先融合、再精炼”的思路,可以说是兼顾了跨模态信息交互的深度和多尺度特征表达的广度。
核心创新一:双门控互补Mamba融合模块 (DGC-MFM)
DGC-MFM是这篇论文的第一个亮点,它的目标是让模型能够根据场景“智能”地决定如何平衡RGB和IR信息,并高效地捕捉全局上下文。
这个模块的设计非常精巧,主要分为四个阶段:
-
门控权重生成:
-
光照门(Illumination Gate, IG): 顾名思义,这个门用来感知当前的光照条件。它通过一个简单的卷积和全局平均池化来估计RGB和IR图像的整体亮度,然后计算出一个光照权重 。如果光照好(RGB更可靠),就会偏向RGB;反之,在暗光下,权重就会偏向IR。这让融合变得非常自适应。 -
差异门(Difference Gate, DG): 这个门关注的是RGB和IR特征之间的“不同之处”。作者认为,两个模态的差异部分往往包含了非常重要的互补信息(比如,白天一辆熄火的车在RGB中很清晰,但在IR中可能不明显;而夜晚一辆刚停下的车,在IR中热信号会非常突出)。通过计算特征差异并利用通道注意力机制,DG可以识别出哪些通道的差异信息更有价值,并生成相应的权重。 -
双门控特征融合: 有了光照和差异两个维度的权重后,DGC-MFM通过一个加权公式将它们结合起来,对原始的RGB和IR特征进行融合。这个公式可以写作: 这个过程同时考虑了“该相信哪个模态”和“哪个模态的什么信息更重要”两个问题,比简单的拼接或相加要智能得多。
-
双向Mamba捕捉全局上下文: 融合后的特征图 会被送入一个双向Mamba模块。Mamba作为一种新型的SSM,最大的优势就是能像Transformer一样捕捉长距离依赖关系,但计算复杂度却是线性的。这对于处理高分辨率的无人机图像来说简直是“天作之合”。作者还使用了双向扫描(前向和后向),确保每个特征点都能聚合到完整的全局上下文信息,这对于区分小物和复杂背景至关重要。
-
特征精炼与整合: 最后,通过残差连接和特征混洗(Shuffle)等操作,模块对特征进行最后的精炼,并整合成用于后续处理的特征金字塔。
核心创新二:分层特征聚合颈 (HFAN)
解决了如何“融合”的问题,下一个关键就是如何处理好不同尺度的特征,尤其是那些对小目标检测至关重要的浅层高分辨率特征。传统FPN(Feature Pyramid Network)在直接融合多尺度特征时,常常因为空间错位和语义冲突而“好心办坏事”。
为此,作者提出了一个“先精炼,后融合(Refine-then-Fuse)”的策略,并设计了HFAN来实现它。HFAN的核心是自适应尺度融合块(Adaptive Scale Fusion Block, ASFB),它包含三个关键组件:
-
内容重建上采样器 (Content Reconstruction Upsampler): 在上采样(放大特征图)时,为了恢复深层特征中丢失的细节,该模块借鉴了CARAFE的思想,根据局部语义动态预测重组卷积核,从而更智能地重建高频细节。其过程可表示为: 简单来说,输出特征图上的每个点 的值,是通过对输入特征图上一块 邻域内的点进行加权求和得到的。而这个权重 不是固定的,是网络根据内容自己学习出来的,因此能更好地保留和重建目标的真实细节。
-
几何对齐下采样器 (Geometric Alignment Downsampler): 在下采样(缩小特征图)时,为了解决无人机视角变化带来的几何畸变,该模块引入了可变形卷积(Deformable Convolution)的思想,通过学习偏移量来对齐特征,确保空间上的一致性。其公式如下: 这里的关键在于 。 传统卷积的采样点 是在规则的网格上,而这里加上了一个可学习的偏移量 ,意味着采样点可以根据目标的实际形状和姿态进行自适应调整,从而实现更精准的特征对齐。
-
自适应加权融合器(Adaptive Weighted Fuser):在融合来自不同层级的特征(比如深层的 、中间的 和浅层的 )时,它会动态学习每个输入特征的贡献权重,从而有选择地强调有用信息、抑制噪声。这借鉴了EfficientDet中的快速归一化融合策略: 这里的 是可学习的标量权重。网络会自动调整它们的大小,来决定在当前位置,是深层的语义信息更重要,还是浅层的细节信息更重要,实现了特征的"按需分配"。
通过将这些ASFB堆叠在双向(自顶向下和自底向上)路径中,HFAN能够生成一个既包含丰富语义信息又保留了精确空间细节的特征金字塔,为检测小目标打下了坚实的基础。
02 实验效果与分析
作者在两个极具挑战性的无人机数据集上对MambaRefine-YOLO进行了全面评估。
2.1 双模态数据表现 (DroneVehicle)
在包含RGB和IR两种模态的DroneVehicle数据集上,MambaRefine-YOLO的表现堪称惊艳。
从上表可以看出,与仅使用单一模态的YOLO基线(mAP为75.3%和79.3%)以及其他先进的双模态检测器(如CFT, M2FP, UAVD-Mamba等)相比,MambaRefine-YOLO在mAP@.5指标上达到了83.2%,取得了全面的领先。
上方的定性结果图也直观地展示了模型的优势。在光线不足或目标被遮挡的区域(如图中红圈和黄圈所示),基线YOLO模型出现了大量的漏检和误检。而MambaRefine-YOLO凭借其强大的跨模态特征融合能力,能够准确地识别出这些其他方法遗漏的小目标,检测结果与真实情况(Ground Truth)高度吻合。
为了验证每个组件的有效性,作者还进行了详尽的消融实验。
结果表明,无论是DGC-MFM中的双向Mamba和双门控机制,还是HFAN本身,都对最终的性能提升做出了不可或缺的贡献。当所有模块协同工作时,模型性能达到了顶峰,比简单的拼接融合+标准FPN的基线提升了整整3.8个百分点。
2.2 单模态数据泛化能力 (VisDrone)
为了证明HFAN模块的通用性,作者将其从完整模型中剥离出来,与一个标准的YOLOv8结合,构成了一个名为HFAN-YOLO的单模态检测器,并在更具挑战性的VisDrone数据集上进行测试。
如上表所示,HFAN-YOLO-M模型在参数量相近的情况下,**AP50达到了49.4%**,远超YOLOv8m(40.3%)和YOLOv12m(41.2%)等模型,甚至优于一些更复杂的检测器。这充分证明了HFAN作为一个即插即用的特征增强模块,其“先精炼,后融合”的策略具有很强的普适性和有效性。
03 总结
总的来说,这篇论文为无人机视角下的小目标检测问题提供了一个非常新颖且有效的解决方案。通过将Mamba的线性复杂度和全局建模能力与精心设计的双门控融合机制相结合,MambaRefine-YOLO在双模态数据上实现了精度和效率的绝佳平衡。同时,其提出的HFAN颈部网络也展示了作为通用模块的巨大潜力。
这项工作不仅在技术上为多模态融合领域带来了新的启发,也为无人机在精准农业、灾害响应、安防监控等领域的实际应用铺平了道路。
大家对这个融合Mamba和YOLO的思路怎么看?欢迎在评论区留下你的看法!
公众号后台回复“数据集”获取100+深度学习各方向资源整理
极市干货

点击阅读原文进入CV社区
收获更多技术干货

