极市导读
青海大学&清华提出 AFM-Net:CNN 局部纹理 + Mamba 全局序列,分层融合与 4 专家 MoE 分类,在 AID/NWPU/UC Merced 遥感场景分类上均达 SOTA,参数量与 GFLOPs 远低于同行,代码已开源。>>加入极市CV技术交流群,走在计算机视觉的最前沿
大家好,今天想和大家聊一篇遥感图像场景分类领域的新作——AFM-Net。这篇论文由青海大学、北京交通大学和清华大学的研究者们共同提出,旨在解决遥感图像中由于地物空间结构复杂、尺度多变带来的分类难题。
简单来说,AFM-Net 的核心思想是“双管齐下”,它设计了一个巧妙的框架,将擅长捕捉局部纹理的CNN和精于把握全局上下文的Mamba架构高效地结合了起来。这里的AFM-Net全称是 Advanced Fusing Hierarchical CNN Visual Priors with Global Sequence Modeling Network,即“融合层级CNN视觉先验与全局序列建模的先进网络”,名字虽然长,但精准地概括了它的技术精髓。
-
论文标题: AFM-Net: Advanced Fusing Hierarchical CNN Visual Priors with Global Sequence Modeling for Remote Sensing Image Scene Classification -
作者: Yuanhao Tang, Xuechao Zou, Zhengpei Hu, Junliang Xing, Chengkun Zhang, Jianqiang Huang -
机构: 青海大学、北京交通大学、清华大学 -
论文地址: https://arxiv.org/abs/2510.27155 -
代码仓库: https://github.com/tangyuanhao-qhu/AFM-Net
01 研究背景:当CNN遇上Transformer,再到Mamba
在遥感图像分类任务中,模型需要同时理解图像的细节(比如一小片建筑的纹理)和整体布局(比如一片居民区和一片森林的分布关系)。
-
CNN:卷积神经网络(Convolutional Neural Network)是计算机视觉的“老将”,它通过卷积核逐层提取特征,对局部纹理的感知能力很强。但它的“视野”有限,难以捕捉相距很远的像素之间的关联。 -
Transformer:Transformer最初在自然语言处理领域大放异彩,后来也被引入视觉任务。它的自注意力机制能够建立全局依赖关系,有效弥补了CNN的短板。然而,这种全局建模能力带来了巨大的计算开销,尤其是在处理高分辨率的遥感图像时,成本过高。
为了在性能和效率之间找到平衡,研究者们将目光投向了更新的Mamba架构。Mamba是一种状态空间模型(State Space Model, SSM),它在保持全局感受野的同时,将计算复杂度从二次方降低到了线性级别,为高效处理长序列数据(如展平的图像块)提供了新的可能。下图直观地展示了不同架构有效感受野(Effective Receptive Fields, ERF)的区别。可以看到,Transformer的感受野虽然广但较为分散,CNN则高度局部化,而AFM-Net(Ours)则兼具两家之长,既有集中的核心区域,又能覆盖广阔的全局上下文。
02 AFM-Net:CNN与Mamba的双剑合璧
AFM-Net的整体架构如下图所示,其精妙之处在于一个双分支设计,并辅以创新的融合机制和分类头。
它的工作流程可以分解为几个关键部分:
-
CNN分支: 作为“局部专家”,负责提取图像的层级化空间特征。这部分通常由一个成熟的CNN主干网络(如ResNet)构成。 -
Mamba分支: 作为“全局谋士”,将输入图像切块并展平为序列,然后利用Mamba模型高效地捕捉长距离依赖关系。为了更全面地扫描图像,作者还设计了前向、后向和之字形三种扫描路径。
核心创新:分层融合机制 (Hierarchical Fusion Mechanism)
如果只是简单地将两个分支的最终输出拼在一起,效果往往不尽人意。AFM-Net的高明之处在于它设计了一个名为 DenseModel 的分层融合模块。
从上图可以看出,融合并非一次完成,而是在CNN和Mamba两个分支的不同层级(stages)之间渐进式地进行。在每个层级,来自两个分支的特征都会被送入一个动态注意力多尺度融合块(Dynamic Attention-based Multi-scale Fusion, DAMF),实现跨层级的特征交互和上下文重建。这种“边提取边融合”的方式,让模型能够动态地整合局部细节和全局信息,生成判别力极强的特征表示。
点睛之笔:混合专家分类器 (MoE Classifier)
在得到融合后的强大特征后,AFM-Net没有使用传统的单一分类器,而是引入了混合专家(Mixture-of-Experts, MoE)模块。你可以把它想象成一个“专家委员会”,委员会里有多位“专家”(即小型的神经网络分类器),每位专家都擅长识别特定类型的场景。当一个特征输入时,一个“门控网络”会智能地判断应该将这个特征交给哪位(或哪些)专家来处理。这样做的好处是,模型可以进行更精细化的分工,让不同的专家专注于学习不同的场景模式,从而提升整体的分类精度。
03 实验结果:精度与效率的完美平衡
AFM-Net在三个主流的遥感场景分类数据集上进行了测试:AID、NWPU-RESISC45和UC Merced。
3.1 SOTA 对比:全面超越
实验结果显示,AFM-Net在所有三个数据集上都取得了当前最优(State-of-the-Art, SOTA)的性能。其总体准确率(Overall Accuracy, OA)分别达到了 93.76% (AID)、95.54% (NWPU-RESISC45) 和 **96.92% (UC Merced)**,全面超越了以往的各种方法,包括纯CNN、纯Transformer以及其他混合模型。
3.2 效率优势:又快又好
更亮眼的是,AFM-Net在取得高精度的同时,保持了极高的效率。下面的图和表清晰地展示了这一点。与其他SOTA模型相比,AFM-Net(红色五角星)在计算量(GFLOPs)和参数量上都具有明显优势,实现了性能与效率的最佳平衡。
3.3 消融实验:每个部分都不可或缺
为了验证模型各个组件的有效性,作者进行了一系列消融实验。结果表明,无论是去掉Mamba分支、移除分层融合机制(DenseModel),还是将MoE分类器换成普通分类器,都会导致模型性能显著下降。这充分证明了AFM-Net设计的合理性和每个部分的必要性。
作者还对MoE中专家数量的选择进行了实验,最终确定4个专家是在性能和参数量之间权衡的最佳选择。
3.4 可视化分析:模型在想什么?
通过类激活图(Class Activation Maps, CAM)的可视化,我们可以看到AFM-Net(右)相比于传统的ResNet-50(左),能够更准确地聚焦于图像中的关键目标区域,这得益于其强大的局部-全局协同表征能力。
此外,对MoE专家的分析也很有趣。t-SNE可视化显示,经过门控网络路由后,不同专家处理的特征在空间中形成了清晰的簇,说明MoE确实在进行有效的分工。
对不同类别场景的专家选择权重进行分析,也证实了每个专家都学到了特定的“偏好”,在不同的数据集上展现出独特的专业化分工。
05 总结
总的来说,AFM-Net为遥感图像场景分类提供了一个非常高效且强大的新范式。小编认为,这种将CNN的局部归纳偏置与Mamba的全局高效建模能力相结合,并通过分层融合与MoE等机制进行优化的思路,对于处理具有复杂时空结构信息的其他视觉任务也很有启发。作者已经开源了代码,感兴趣的朋友不妨去亲自尝试一下。
大家对CNN与Mamba的这种结合方式怎么看?欢迎在评论区分享你的见解!
公众号后台回复“数据集”获取100+深度学习各方向资源整理
极市干货

点击阅读原文进入CV社区
收获更多技术干货

