遥感领域新作AFM-Net：融合CNN与Mamba，遥感图像分类精度与效率双丰收



遥感领域新作AFM-Net：融合CNN与Mamba，遥感图像分类精度与效率双丰收

极市平台

2025-11-05

↑ 点击蓝字关注极市平台

作者丨我爱计算机视觉

来源丨我爱计算机视觉

编辑丨极市平台

极市导读

青海大学&清华提出 AFM-Net：CNN 局部纹理 + Mamba 全局序列，分层融合与 4 专家 MoE 分类，在 AID/NWPU/UC Merced 遥感场景分类上均达 SOTA，参数量与 GFLOPs 远低于同行，代码已开源。>>加入极市CV技术交流群，走在计算机视觉的最前沿

大家好，今天想和大家聊一篇遥感图像场景分类领域的新作——AFM-Net。这篇论文由青海大学、北京交通大学和清华大学的研究者们共同提出，旨在解决遥感图像中由于地物空间结构复杂、尺度多变带来的分类难题。

简单来说，AFM-Net 的核心思想是“双管齐下”，它设计了一个巧妙的框架，将擅长捕捉局部纹理的CNN和精于把握全局上下文的Mamba架构高效地结合了起来。这里的AFM-Net全称是 Advanced Fusing Hierarchical CNN Visual Priors with Global Sequence Modeling Network，即“融合层级CNN视觉先验与全局序列建模的先进网络”，名字虽然长，但精准地概括了它的技术精髓。

论文标题: AFM-Net: Advanced Fusing Hierarchical CNN Visual Priors with Global Sequence Modeling for Remote Sensing Image Scene Classification
作者: Yuanhao Tang, Xuechao Zou, Zhengpei Hu, Junliang Xing, Chengkun Zhang, Jianqiang Huang
机构: 青海大学、北京交通大学、清华大学
论文地址: https://arxiv.org/abs/2510.27155
代码仓库: https://github.com/tangyuanhao-qhu/AFM-Net

01 研究背景：当CNN遇上Transformer，再到Mamba

在遥感图像分类任务中，模型需要同时理解图像的细节（比如一小片建筑的纹理）和整体布局（比如一片居民区和一片森林的分布关系）。

CNN：卷积神经网络（Convolutional Neural Network）是计算机视觉的“老将”，它通过卷积核逐层提取特征，对局部纹理的感知能力很强。但它的“视野”有限，难以捕捉相距很远的像素之间的关联。
Transformer：Transformer最初在自然语言处理领域大放异彩，后来也被引入视觉任务。它的自注意力机制能够建立全局依赖关系，有效弥补了CNN的短板。然而，这种全局建模能力带来了巨大的计算开销，尤其是在处理高分辨率的遥感图像时，成本过高。

为了在性能和效率之间找到平衡，研究者们将目光投向了更新的Mamba架构。Mamba是一种状态空间模型（State Space Model, SSM），它在保持全局感受野的同时，将计算复杂度从二次方降低到了线性级别，为高效处理长序列数据（如展平的图像块）提供了新的可能。下图直观地展示了不同架构有效感受野（Effective Receptive Fields, ERF）的区别。可以看到，Transformer的感受野虽然广但较为分散，CNN则高度局部化，而AFM-Net（Ours）则兼具两家之长，既有集中的核心区域，又能覆盖广阔的全局上下文。

02 AFM-Net：CNN与Mamba的双剑合璧

AFM-Net的整体架构如下图所示，其精妙之处在于一个双分支设计，并辅以创新的融合机制和分类头。

它的工作流程可以分解为几个关键部分：

CNN分支: 作为“局部专家”，负责提取图像的层级化空间特征。这部分通常由一个成熟的CNN主干网络（如ResNet）构成。
Mamba分支: 作为“全局谋士”，将输入图像切块并展平为序列，然后利用Mamba模型高效地捕捉长距离依赖关系。为了更全面地扫描图像，作者还设计了前向、后向和之字形三种扫描路径。

核心创新：分层融合机制 (Hierarchical Fusion Mechanism)

如果只是简单地将两个分支的最终输出拼在一起，效果往往不尽人意。AFM-Net的高明之处在于它设计了一个名为 DenseModel 的分层融合模块。

从上图可以看出，融合并非一次完成，而是在CNN和Mamba两个分支的不同层级（stages）之间渐进式地进行。在每个层级，来自两个分支的特征都会被送入一个动态注意力多尺度融合块（Dynamic Attention-based Multi-scale Fusion, DAMF），实现跨层级的特征交互和上下文重建。这种“边提取边融合”的方式，让模型能够动态地整合局部细节和全局信息，生成判别力极强的特征表示。

点睛之笔：混合专家分类器 (MoE Classifier)

在得到融合后的强大特征后，AFM-Net没有使用传统的单一分类器，而是引入了混合专家（Mixture-of-Experts, MoE）模块。你可以把它想象成一个“专家委员会”，委员会里有多位“专家”（即小型的神经网络分类器），每位专家都擅长识别特定类型的场景。当一个特征输入时，一个“门控网络”会智能地判断应该将这个特征交给哪位（或哪些）专家来处理。这样做的好处是，模型可以进行更精细化的分工，让不同的专家专注于学习不同的场景模式，从而提升整体的分类精度。

03 实验结果：精度与效率的完美平衡

AFM-Net在三个主流的遥感场景分类数据集上进行了测试：AID、NWPU-RESISC45和UC Merced。

3.1 SOTA 对比：全面超越

实验结果显示，AFM-Net在所有三个数据集上都取得了当前最优（State-of-the-Art, SOTA）的性能。其总体准确率（Overall Accuracy, OA）分别达到了 93.76% (AID)、95.54% (NWPU-RESISC45) 和 **96.92% (UC Merced)**，全面超越了以往的各种方法，包括纯CNN、纯Transformer以及其他混合模型。

3.2 效率优势：又快又好

更亮眼的是，AFM-Net在取得高精度的同时，保持了极高的效率。下面的图和表清晰地展示了这一点。与其他SOTA模型相比，AFM-Net（红色五角星）在计算量（GFLOPs）和参数量上都具有明显优势，实现了性能与效率的最佳平衡。

3.3 消融实验：每个部分都不可或缺

为了验证模型各个组件的有效性，作者进行了一系列消融实验。结果表明，无论是去掉Mamba分支、移除分层融合机制（DenseModel），还是将MoE分类器换成普通分类器，都会导致模型性能显著下降。这充分证明了AFM-Net设计的合理性和每个部分的必要性。

作者还对MoE中专家数量的选择进行了实验，最终确定4个专家是在性能和参数量之间权衡的最佳选择。

3.4 可视化分析：模型在想什么？

通过类激活图（Class Activation Maps, CAM）的可视化，我们可以看到AFM-Net（右）相比于传统的ResNet-50（左），能够更准确地聚焦于图像中的关键目标区域，这得益于其强大的局部-全局协同表征能力。

此外，对MoE专家的分析也很有趣。t-SNE可视化显示，经过门控网络路由后，不同专家处理的特征在空间中形成了清晰的簇，说明MoE确实在进行有效的分工。

对不同类别场景的专家选择权重进行分析，也证实了每个专家都学到了特定的“偏好”，在不同的数据集上展现出独特的专业化分工。

05 总结

总的来说，AFM-Net为遥感图像场景分类提供了一个非常高效且强大的新范式。小编认为，这种将CNN的局部归纳偏置与Mamba的全局高效建模能力相结合，并通过分层融合与MoE等机制进行优化的思路，对于处理具有复杂时空结构信息的其他视觉任务也很有启发。作者已经开源了代码，感兴趣的朋友不妨去亲自尝试一下。

大家对CNN与Mamba的这种结合方式怎么看？欢迎在评论区分享你的见解！

公众号后台回复“数据集”获取100+深度学习各方向资源整理

极市干货