TGRS | GSFANet: 浙大团队提出用于红外小目标检测的全局空-频注意力网络, 代码开源！

遥感与深度学习

2025-12-01

导读：GSFANet: Global Spatial-Frequency Attention Network for Infrared Small Target Detection

RS DL

题目：GSFANet: Global Spatial-Frequency Attention Network for Infrared Small Target Detection

期刊：IEEE Transactions on Geoscience and Remote Sensing (TGRS)

论文：https://ieeexplore.ieee.org/abstract/document/11133697

数据：SIRST, NUDT-SIRST, IRSTD-1k

代码：https://github.com/dengfa02/GSFANet_IRSTD

年份：2025

单位：浙江大学、电子科技大学、埃斯特雷马杜拉大学

原作者审阅认证

参数化小波下采样 (PWD)：提出了一种结合小波变换与分组卷积的可学习下采样模块，在进行频率细化的同时，有效保留了红外小目标的关键空间细节，防止特征在下采样中碎片化；
分层门控核注意力 (HGKA)：引入高斯核函数替代传统点积计算，捕捉高维非线性特征并降低计算复杂度；设计跨空间门控机制（CSG），确保了深层语义在跨层传输时的空间一致性，有效抑制虚警；
自适应频率解耦融合 (AdaFD)：在解码阶段，动态生成高通和低通滤波器，自适应地融合与目标相关的频率分量，在增强目标边缘细节的同时有效抑制背景噪声；
自适应焦点损失 (AdaFL)：提出了一种能够感知目标完整性的损失函数，通过自适应调整梯度权重，平衡了多尺度目标的训练，解决了红外小目标检测中严重的样本不平衡问题。

红外小目标检测（IRSTD）在单帧图像中面临着巨大的挑战：目标缺乏纹理、尺寸极小且易受复杂背景噪声干扰。现有的基于空间域的方法难以区分目标与相似的噪点，且容易破坏大尺度目标的完整性。虽然频域信息具有区分目标和噪声的潜力（见下图），但现有方法缺乏对频率分量的自适应选择能力。

本研究在三个公开的红外小目标检测基准数据集上进行了实验：

GSFANet 采用编码器-解码器结构，主要由以下核心模块构成：

PWD 模块包含两个分支：固定 Haar 小波变换分支用于提供可解释的频率分解；基于分组卷积的分支用于模拟小波导向的局部对比度并补充空间细节。两者通过通道注意力进行融合。

这使得型能够在无限维特征空间中衡量相似度，更适合红外小目标的高斯分布特性。同时，CSG 机制确保了跨层的空间注意力聚焦于一致的目标区域。

为了解决样本不平衡和训练后期梯度震荡问题，AdaFL 结合了 IoU 和目标尺寸自适应调整权重：
其中α是目标尺寸缩放因子，使得小目标在训练中获得更大的梯度关注（见下图）。总的来看，AdaFL 有助于模型更好地学习多尺度目标的完整性，并根据训练阶段自适应调整目标梯度。

实验结果表明，GSFANet 在 SIRST、NUDT-SIRST 和 IRSTD-1k 三个数据集上均取得了优越的性能。相比于SOTA方法在IoU、$F_1$、$P_d$与上均有显著提升，同时保持了较低的虚警率$F_a$。
可视化结果显示，GSFANet 能够准确检测出复杂背景下的微弱目标，并且在面对高斯噪声和散斑噪声干扰时表现出极强的鲁棒性。AdaFD 模块有效地保留了目标的形状边界，而 PWD 模块则确保了极小目标不丢失。