大数跨境
0
0

遥感领域新作AFM-Net:融合CNN与Mamba,遥感图像分类精度与效率双丰收

遥感领域新作AFM-Net:融合CNN与Mamba,遥感图像分类精度与效率双丰收 极市平台
2025-11-05
2
↑ 点击蓝字 关注极市平台
作者丨我爱计算机视觉
来源丨我爱计算机视觉
编辑丨极市平台

极市导读

 

青海大学&清华提出 AFM-Net:CNN 局部纹理 + Mamba 全局序列,分层融合与 4 专家 MoE 分类,在 AID/NWPU/UC Merced 遥感场景分类上均达 SOTA,参数量与 GFLOPs 远低于同行,代码已开源。>>加入极市CV技术交流群,走在计算机视觉的最前沿

大家好,今天想和大家聊一篇遥感图像场景分类领域的新作——AFM-Net。这篇论文由青海大学、北京交通大学和清华大学的研究者们共同提出,旨在解决遥感图像中由于地物空间结构复杂、尺度多变带来的分类难题。

简单来说,AFM-Net 的核心思想是“双管齐下”,它设计了一个巧妙的框架,将擅长捕捉局部纹理的CNN和精于把握全局上下文的Mamba架构高效地结合了起来。这里的AFM-Net全称是 Advanced Fusing Hierarchical CNN Visual Priors with Global Sequence Modeling Network,即“融合层级CNN视觉先验与全局序列建模的先进网络”,名字虽然长,但精准地概括了它的技术精髓。

  • 论文标题: AFM-Net: Advanced Fusing Hierarchical CNN Visual Priors with Global Sequence Modeling for Remote Sensing Image Scene Classification
  • 作者: Yuanhao Tang, Xuechao Zou, Zhengpei Hu, Junliang Xing, Chengkun Zhang, Jianqiang Huang
  • 机构: 青海大学、北京交通大学、清华大学
  • 论文地址https://arxiv.org/abs/2510.27155
  • 代码仓库https://github.com/tangyuanhao-qhu/AFM-Net

01 研究背景:当CNN遇上Transformer,再到Mamba

在遥感图像分类任务中,模型需要同时理解图像的细节(比如一小片建筑的纹理)和整体布局(比如一片居民区和一片森林的分布关系)。

  • CNN:卷积神经网络(Convolutional Neural Network)是计算机视觉的“老将”,它通过卷积核逐层提取特征,对局部纹理的感知能力很强。但它的“视野”有限,难以捕捉相距很远的像素之间的关联。
  • Transformer:Transformer最初在自然语言处理领域大放异彩,后来也被引入视觉任务。它的自注意力机制能够建立全局依赖关系,有效弥补了CNN的短板。然而,这种全局建模能力带来了巨大的计算开销,尤其是在处理高分辨率的遥感图像时,成本过高。

为了在性能和效率之间找到平衡,研究者们将目光投向了更新的Mamba架构。Mamba是一种状态空间模型(State Space Model, SSM),它在保持全局感受野的同时,将计算复杂度从二次方降低到了线性级别,为高效处理长序列数据(如展平的图像块)提供了新的可能。下图直观地展示了不同架构有效感受野(Effective Receptive Fields, ERF)的区别。可以看到,Transformer的感受野虽然广但较为分散,CNN则高度局部化,而AFM-Net(Ours)则兼具两家之长,既有集中的核心区域,又能覆盖广阔的全局上下文。

02 AFM-Net:CNN与Mamba的双剑合璧

AFM-Net的整体架构如下图所示,其精妙之处在于一个双分支设计,并辅以创新的融合机制和分类头。

它的工作流程可以分解为几个关键部分:

  • CNN分支: 作为“局部专家”,负责提取图像的层级化空间特征。这部分通常由一个成熟的CNN主干网络(如ResNet)构成。
  • Mamba分支: 作为“全局谋士”,将输入图像切块并展平为序列,然后利用Mamba模型高效地捕捉长距离依赖关系。为了更全面地扫描图像,作者还设计了前向、后向和之字形三种扫描路径。

核心创新:分层融合机制 (Hierarchical Fusion Mechanism)

如果只是简单地将两个分支的最终输出拼在一起,效果往往不尽人意。AFM-Net的高明之处在于它设计了一个名为 DenseModel 的分层融合模块。

从上图可以看出,融合并非一次完成,而是在CNN和Mamba两个分支的不同层级(stages)之间渐进式地进行。在每个层级,来自两个分支的特征都会被送入一个动态注意力多尺度融合块(Dynamic Attention-based Multi-scale Fusion, DAMF),实现跨层级的特征交互和上下文重建。这种“边提取边融合”的方式,让模型能够动态地整合局部细节和全局信息,生成判别力极强的特征表示。

点睛之笔:混合专家分类器 (MoE Classifier)

在得到融合后的强大特征后,AFM-Net没有使用传统的单一分类器,而是引入了混合专家(Mixture-of-Experts, MoE)模块。你可以把它想象成一个“专家委员会”,委员会里有多位“专家”(即小型的神经网络分类器),每位专家都擅长识别特定类型的场景。当一个特征输入时,一个“门控网络”会智能地判断应该将这个特征交给哪位(或哪些)专家来处理。这样做的好处是,模型可以进行更精细化的分工,让不同的专家专注于学习不同的场景模式,从而提升整体的分类精度。

03 实验结果:精度与效率的完美平衡

AFM-Net在三个主流的遥感场景分类数据集上进行了测试:AID、NWPU-RESISC45和UC Merced。

3.1 SOTA 对比:全面超越

实验结果显示,AFM-Net在所有三个数据集上都取得了当前最优(State-of-the-Art, SOTA)的性能。其总体准确率(Overall Accuracy, OA)分别达到了 93.76% (AID)95.54% (NWPU-RESISC45) 和 **96.92% (UC Merced)**,全面超越了以往的各种方法,包括纯CNN、纯Transformer以及其他混合模型。

3.2 效率优势:又快又好

更亮眼的是,AFM-Net在取得高精度的同时,保持了极高的效率。下面的图和表清晰地展示了这一点。与其他SOTA模型相比,AFM-Net(红色五角星)在计算量(GFLOPs)和参数量上都具有明显优势,实现了性能与效率的最佳平衡。

3.3 消融实验:每个部分都不可或缺

为了验证模型各个组件的有效性,作者进行了一系列消融实验。结果表明,无论是去掉Mamba分支、移除分层融合机制(DenseModel),还是将MoE分类器换成普通分类器,都会导致模型性能显著下降。这充分证明了AFM-Net设计的合理性和每个部分的必要性。

作者还对MoE中专家数量的选择进行了实验,最终确定4个专家是在性能和参数量之间权衡的最佳选择。

3.4 可视化分析:模型在想什么?

通过类激活图(Class Activation Maps, CAM)的可视化,我们可以看到AFM-Net(右)相比于传统的ResNet-50(左),能够更准确地聚焦于图像中的关键目标区域,这得益于其强大的局部-全局协同表征能力。

此外,对MoE专家的分析也很有趣。t-SNE可视化显示,经过门控网络路由后,不同专家处理的特征在空间中形成了清晰的簇,说明MoE确实在进行有效的分工。

对不同类别场景的专家选择权重进行分析,也证实了每个专家都学到了特定的“偏好”,在不同的数据集上展现出独特的专业化分工。

05 总结

总的来说,AFM-Net为遥感图像场景分类提供了一个非常高效且强大的新范式。小编认为,这种将CNN的局部归纳偏置与Mamba的全局高效建模能力相结合,并通过分层融合与MoE等机制进行优化的思路,对于处理具有复杂时空结构信息的其他视觉任务也很有启发。作者已经开源了代码,感兴趣的朋友不妨去亲自尝试一下。

大家对CNN与Mamba的这种结合方式怎么看?欢迎在评论区分享你的见解!


公众号后台回复“数据集”获取100+深度学习各方向资源整理


极市干货

技术专栏:多模态大模型超详细解读专栏搞懂Tranformer系列大视觉模型 (LVM) 解读扩散模型系列极市直播
技术综述:小目标检测那点事大模型面试八股含答案万字长文!人体姿态估计(HPE)入门教程

点击阅读原文进入CV社区

收获更多技术干货

【声明】内容源于网络
0
0
极市平台
为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
内容 8155
粉丝 0
极市平台 为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
总阅读8.7k
粉丝0
内容8.2k