大数跨境
0
0

TGRS 2025 | 浙大提出GSFANet:融合空间与频率注意力,提升红外小目标检测精度

TGRS 2025 | 浙大提出GSFANet:融合空间与频率注意力,提升红外小目标检测精度 我爱计算机视觉
2025-12-02
0
导读:从频域出发,让红外小目标“显出原形”。

  • 论文标题: GSFANet: Global Spatial–Frequency Attention Network for Infrared Small Target Detection
  • 作者: Chuiyi Deng, Zhuoyi Zhao, Xiang Xu, Yixin Xia, Junwei Li, Antonio Plaza
  • 机构: 浙江大学,电子科技大学,西班牙埃斯特雷马杜拉大学
  • 论文地址: https://ieeexplore.ieee.org/abstract/document/11133697
  • 代码仓库: https://github.com/dengfa02/GSFANet_IRSTD
  • 录用期刊: IEEE Transactions on Geoscience and Remote Sensing (TGRS) 2025

前言

大家好!今天想和大家聊一篇关于红外小目标检测(Infrared Small Target Detection, IRSTD)的新工作。在自动驾驶、海上搜救、精确制导等领域,精准地从复杂的红外图像中“揪出”那些又小又暗的目标,一直是个棘手的难题。传统方法往往只在空间域上做文章,但当目标和背景噪声长得很像时,就很容易“看走眼”。

最近,来自浙江大学等机构的研究者们另辟蹊径,从频率域的视角出发,提出了一种名为GSFANet的全新网络架构。这篇发表在TGRS 2025上的论文,通过巧妙地融合空间和频率信息,不仅显著提升了检测精度,还在多个基准数据集上达到了新的SOTA水平。

研究动机:为什么要在频域做文章?

我们知道,单帧红外图像提供的信息非常有限。目标小、信噪比低,而且形状模糊,这些都给检测带来了巨大挑战。以往的方法大多致力于在空间维度上设计更复杂的网络来区分目标和噪声,但效果总有瓶颈。

作者敏锐地发现,目标和噪声在空间域上可能看起来差不多,但在频率域上却可能“判若两人”。

通过上图的统计分析可以看到,目标T1、T2与噪声N在空间域的分布差异极小(Jensen-Shannon散度很低),但在频域中,它们的分布差异被显著放大了(平均增益达到4.63倍)。这就像给了我们一副“火眼金睛”,能够从一个全新的维度来识别目标。理论上,小波变换(Wavelet Transform, WT)可以看作是在多个尺度和方向上存储空间对比度信息,这使得它在频域中搜寻目标变得更直接、更高效。

基于这一洞察,作者认为,将空间学习和频率分析结合起来,可以更鲁棒地解决IRSTD难题。GSFANet的核心思想便是在此基础上构建一个联合学习框架。

GSFANet:模型架构全解析

GSFANet的整体架构如下图所示,是一个精心设计的编码器-解码器结构。它通过一个频率下采样编码过程和一个自适应频率融合解码过程,实现了空间与频率的联合学习。

整个网络主要由三大核心模块和一大损失函数组成:

参数化小波下采样(PWD)

在深度网络中,下采样是提取多尺度特征的关键步骤。但传统的最大池化或步进卷积等方法,在处理红外小目标时,很容易丢失关键的细节信息,导致目标特征“支离破碎”。

为了解决这个问题,作者设计了参数化小波下采样(Parametric Wavelet Downsampling, PWD)模块。

PWD模块非常巧妙,它包含两条分支:一条是固定的哈尔小波变换(Haar WT)分支,用于提供可解释的频域分解;另一条是分组卷积分支,模拟小波引导的局部对比度,并补充空间细节。两条分支的输出通过通道注意力进行自适应融合。这种设计使得网络能够在下采样过程中,以一种可学习的方式调整目标的分解频率,既保留了频域的判别性,又补充了空间细节,防止了特征的丢失。

分层门控核注意力(HGKA)

为了在网络的不同层级之间有效地融合频率和语义信息,作者提出了分层门控核注意力(Hierarchical Gated Kernel Attention, HGKA)模块。

HGKA模块是GSFANet的交互核心,它包含两个子组件:

  • 跨通道核注意力 (Cross-Channel Kernel Attention, C2K): 传统的注意力机制计算量大,且线性点积操作难以捕捉高维非线性关系。C2K创新地引入了高斯核函数来代替点积运算。高斯核能够隐式地将特征映射到无穷维空间,极大地增强了特征的可辨别性,同时计算上更高效。它通过计算特征向量之间的距离来衡量相似性,这与红外小目标通常呈现高斯状分布的特性天然契合。

  • 跨空间门控注意力 (Cross-Spatial Gate Attention, CSG): 为了确保深层网络提取的强语义信息能够准确地传递到浅层,指导浅层特征聚焦于目标区域,CSG设计了一种全局门控机制。它为所有层级生成一个统一的空间注意力门,强制网络在不同尺度上关注共同的目标区域,从而保证了小目标语义的全局一致性。

如上图所示,加入全局一致的空间注意力后(第一行),深层语义(E2)能够被有效传播到浅层特征(F0),使得网络在各个尺度上都能准确聚焦目标。

自适应频率解耦融合(AdaFD)

在解码阶段,如何将编码器提取的空间-频率混合特征有效地还原成最终的分割图,是另一个关键。传统的固定逆小波变换显然无法充分利用丰富的频率信息。

为此,作者设计了自适应频率解耦融合(Adaptive Frequency-Decoupled Fusion, AdaFD)模块。

AdaFD模块将特征解码过程看作一个可学习的滤波器生成任务。它能够根据高分辨率特征的频率重要性,动态地生成自适应的高通和低通滤波器。高通滤波器用于锐化浅层特征中的目标细节和边界,而低通滤波器则用于从深层特征中提取精确的目标语义。这种动态调整截止频率和过渡带宽的能力,使得模型能更好地适应不同场景下小目标的频率特性,实现了对目标细节和全局语义的兼顾。

自适应焦点损失(AdaFL)

IRSTD任务中存在严重的样本不平衡问题,尤其是大、小目标对损失的贡献差异巨大。现有的SoftIoU Loss等方法在这种情况下存在梯度更新不平衡和训练后期震荡的问题。

作者为此提出了自适应焦点损失(Adaptive Focal Loss, AdaFL)。该损失函数巧妙地将IoU引入Focal Loss的调制因子中,其形式如下:

其中, 是一个根据批次内目标尺寸自适应调整的缩放因子。

从上图的分析可以看出,AdaFL能够:

  1. 自动平衡不同尺寸目标的损失贡献,小目标获得更大的损失权重。
  2. 根据训练阶段(由IoU反映)动态调整梯度,训练初期IoU较低时,梯度较大促进收敛;后期IoU较高时,梯度平滑减小,保证训练稳定。

实验结果:性能卓越,效果显著

作者在SIRST、NUDT-SIRST和IRSTD-1k三个公开数据集上进行了详尽的实验,并将GSFANet与多种SOTA方法进行了比较。

定量分析

从上表的主要结果可以看出,GSFANet在各项关键指标上(IoU, F1, Pd, Fa)都取得了全面的领先,尤其是在SIRST和NUDT-SIRST数据集上,性能优势明显。这证明了其在区分目标与噪声以及精确提取目标形状方面的强大能力。

在模型复杂度方面,GSFANet在参数量(Params)和计算量(FLOPs)上都保持了较低的水平,同时推理速度(FPS)也满足实时性要求,展现了优异的性能和效率的平衡。

ROC曲线进一步证实了GSFANet的优越性,在三个数据集上,它的曲线都最接近左上角,表明在所有阈值下都具有最高的真阳性率和最低的假阳性率。

定性分析

话不多说,直接看图。

上图展示了在各种复杂场景下的检测结果。无论是面对密集目标(a)、强噪声干扰(b, d, g),还是需要精确分割轮廓的大目标(c, e, f),GSFANet都表现出了惊人的鲁棒性和准确性。许多其他方法会产生的漏检和虚警,GSFANet都能成功避免。

通过3D显著性图对比可以更直观地看到,GSFANet生成的响应热图(d)中,目标的峰值响应远高于噪声,背景抑制得非常干净,而其他方法(b, c)则容易将噪声误判为目标。

写在最后

GSFANet通过引入频率域的视角,为红外小目标检测问题提供了一个全新的、高效的解决方案。它巧妙地设计了PWD、HGKA和AdaFD等模块,实现了空间信息和频率信息的深度融合与协同工作,并辅以AdaFL损失函数稳定训练过程。大量的实验证明,这种联合学习框架能够显著放大目标与噪声的差异,在复杂背景下实现更准确、更鲁棒的检测。

【声明】内容源于网络
0
0
我爱计算机视觉
探寻CV新知,发现AI价值
内容 3637
粉丝 0
我爱计算机视觉 探寻CV新知,发现AI价值
总阅读660
粉丝0
内容3.6k