AAAI2026 Oral | RSKT-Seg: 中科大等提出遥感领域开放词汇分割新基础和新方法, 代码开源！



AAAI2026 Oral | RSKT-Seg: 中科大等提出遥感领域开放词汇分割新基础和新方法, 代码开源！

遥感与深度学习

2025-11-22

导读：Exploring Efficient Open-Vocabulary Segmentation in the Remote Sensing

RS DL

题目：Exploring Efficient Open-Vocabulary Segmentation in the Remote Sensing

会议：The 40th Annual AAAI Conference on Artificial Intelligence, AAAI2026

论文：https://arxiv.org/abs/2509.12040

代码：https://github.com/LiBingyu01/RSKT-Seg

单位：中国科学技术大学，西北工业大学，中国电信人工智能研究院

原作者审阅认证

AAAI2026 遥感AI方向论文合集： AAAI2026

创新点

标准基准：构建OVRSISBench，首次为遥感开放词汇分割提供统一评估标准（8个数据集）
旋转不变建模：提出RS-CMA模块，通过4方向旋转增强显式捕获遥感图像的旋转不变特性
高效融合机制：设计RS-Fusion双维度Transformer，通过空间/类别降维实现2×推理加速且精度不降
领域知识迁移：RS-Transfer模块融合RemoteCLIP和遥感DINO特征，实现自然图像到遥感的有效域适应

背景

遥感变化检测作为地球观测核心技术，广泛应用于城市管理、土地监测、灾害评估等场景，但实际中面临高质量标注数据稀缺、多模态数据异质性及多时序数据噪声干扰等问题，且高分辨率遥感图像进一步放大了空间 - 光谱 - 时序复杂度，对语义级变化建模提出更高要求。现有技术路径存在明显局限：对比学习（CL）类方法聚焦多时序图像相似性学习，未显式建模语义变化且缺乏高层语义信息，易受噪声干扰；视觉基础模型（VFM）类方法（如SAM、Dino等）虽能提取通用语义特征，但因训练数据与遥感图像存在领域鸿沟（Domain Gap），且依赖监督微调，无法适配无标签 UCD 场景，同时难以处理多模态数据；多模态变化检测（MMCD）相关方法则泛化性差、跨模态语义对齐难。在此背景下，本文旨在通过融合 CL 与 VFM 的优势，提出 Semantic-to-Change（S2C）学习框架，突破噪声鲁棒性、语义建模、模态适配三大核心难题，解决标签稀缺、噪声复杂的实际遥感 UCD 场景需求。

数据

OVRSISBench基准构建

文章构建了首个遥感开放词汇分割的统一基准OVRSISBench，整合了8个广泛使用的遥感数据集，涵盖城市布局、农业区域和高分辨率航拍影像等多样化场景。

训练集配置

基准采用DLRSD和iSAID作为训练数据集。DLRSD包含7,002张图像和17个类别，其中5,601张用于训练，1,401张用于验证。iSAID包含24,439张图像和15个类别，其中18,076张用于训练，6,363张用于验证。选择这两个数据集作为训练集是因为其规模大、场景多样，能够有效学习遥感视觉模式。

测试集配置

基准在全部8个数据集上进行评估，包括训练集和6个独立测试集。Potsdam数据集包含20,102张图像和6个类别，Vaihingen包含2,254张图像和6个类别，两者都聚焦于城市地表分割。UAVid包含300张无人机采集的图像和8个类别，UDD5包含4,198张鸟瞰视角图像和5个类别。LoveDA包含18,000张土地覆盖图像和7个类别，VDD包含7,992张图像和7个类别。

开放词汇协议设计

基准采用跨数据集迁移协议确保真正的开放词汇评估。模型在DLRSD和iSAID上训练后，在所有8个数据集上测试，不同数据集间的类别存在部分重叠但不完全一致。统计分析显示，以DLRSD为训练集时，与其他数据集的类别重叠数在2到8个之间；以iSAID为训练集时，重叠数在1到8个之间。这种设计确保模型必须具备对未见类别的泛化能力，符合标准开放词汇分割的要求。

基准评估指标

所有方法在基准上使用统一的评估指标进行公平比较，包括平均交并比（mIoU）、频率加权交并比（fwIoU）和平均准确率（mACC），确保不同方法间的可比性和一致性。

方法

整体框架设计

RSKT-Seg是一个专门为遥感图像设计的开放词汇分割框架，核心思想是在传统开放词汇分割模型的基础上，通过三个关键模块实现遥感领域知识的有效迁移。框架以CLIP作为视觉-语言基础模型，通过文本编码器将类别名称（如"ship"、"building"）编码为文本特征，通过图像编码器提取视觉特征，然后计算两者之间的相似度形成代价图，最终通过聚合和上采样生成像素级分割结果。

RS-CMA：多方向代价图聚合模块

旋转不变性建模

遥感图像与自然图像的关键区别在于其俯视视角，同一物体（如飞机、桥梁）可能以任意方向出现。为解决这一问题，RS-CMA模块首先将输入图像旋转生成四个不同方向的版本，分别对应原始方向、旋转90度、180度和270度。

双编码器特征提取

对于每个旋转后的图像，模块使用CLIP图像编码器提取视觉特征。同时，为了注入遥感领域知识，模块还使用在大规模遥感数据上预训练的DINO编码器对原始图像进行编码。DINO编码器专门在遥感图像上训练，能够捕获遥感特有的视觉模式。

代价图计算与融合

对于CLIP提取的特征，模块计算其与文本特征之间的余弦相似度，生成四个方向的代价图。每个代价图反映了图像中每个位置与每个类别的匹配程度。对于DINO特征，同样计算其与文本特征的相似度生成代价图。最后，将这五个代价图（四个CLIP代价图和一个DINO代价图）通过融合函数整合，形成旋转不变且包含遥感领域知识的统一代价图。

多模板增强

为了提高文本描述的鲁棒性，模块使用多个提示模板（如"a photo of {class}"、"a satellite image of {class}"）生成文本特征，最终代价图形状为高×宽×类别数×模板数，然后通过线性层投影到统一维度。

RS-Fusion：高效代价图融合模块

空间增强Transformer（SET）

代价图虽然包含了视觉-文本匹配信息，但缺乏足够的空间判别能力。SET模块通过增强空间维度的特征来解决这个问题。首先，将代价图与CLIP和DINO的中间层特征拼接，这些中间层特征包含丰富的空间细节信息。然后，通过空间降维卷积层减少空间分辨率，显著降低计算复杂度。降维后的特征作为Transformer的键（key）和值（value），原始代价图作为查询（query），通过交叉注意力机制聚合多尺度空间上下文信息。

类别增强Transformer（CET）

在空间维度增强后，CET模块进一步强化类别维度的判别能力。模块首先对经过SET处理的特征进行平均池化降低空间分辨率，然后与CLIP的文本特征拼接。接着对代价图进行重塑以匹配重复文本特征的形状，两者拼接后输入Transformer进行类别维度的自注意力计算。这个过程使模型能够捕获不同类别之间的交互关系，增强类内一致性和类间区分性。

维度降维策略

为实现高效推理，模块在两个Transformer之前都引入了维度降维操作。空间降维通过卷积实现，将空间分辨率从高×宽降低到高/r₁×宽/r₁；类别降维通过平均池化实现。这种降维策略将交叉注意力的计算复杂度从原始的平方级别大幅降低，实现约2倍的推理加速，同时通过保留关键信息避免精度损失。

迭代聚合

SET和CET模块通过多层迭代处理（N层）逐步增强代价图的空间和类别判别能力。每一层都进一步细化特征表示，最终形成高质量的聚合代价图。实验表明，使用DLRSD训练时最优层数为5，使用iSAID训练时最优层数为2。

RS-Transfer：遥感知识迁移上采样模块

多层特征融合

聚合后的代价图虽然具有强判别能力，但由于空间分辨率较低，缺乏精细的纹理细节。RS-Transfer模块通过融合多个预训练编码器的中间层特征来恢复细节。具体来说，模块提取RemoteCLIP视觉编码器、CLIP视觉编码器和DINO编码器的多个中间层特征，这些特征在不同层级包含从低级边缘到高级语义的丰富信息。

渐进式上采样

在上采样过程中，模块将低分辨率的代价图与高分辨率的编码器特征进行拼接，然后通过投影模块对齐特征维度。这个过程分多个阶段进行，每个阶段都融合相应尺度的编码器特征。对于ViT-B骨干网络，使用第3层和第7层特征；对于ViT-L骨干网络，使用第7层和第15层特征；对于DINO编码器，同样使用第3层和第7层特征。

领域知识注入

RS-Transfer的关键创新在于引入RemoteCLIP编码器，这是一个专门在遥感图像-文本对上预训练的模型，能够提供遥感特定的视觉先验。通过将RemoteCLIP特征与标准CLIP和DINO特征结合，模块实现了从自然图像域到遥感域的有效知识迁移，显著提升了模型对遥感图像特有模式（如卫星视角、地物纹理）的理解能力。

最终预测生成

经过多次上采样和特征融合后，模块生成与原始输入图像相同分辨率的特征图，形状为类别数×高×宽。每个像素位置的特征表示其属于各个类别的概率分布，通过这个分布即可生成最终的分割掩码。

实验与分析

RSKT-Seg在OVRSISBench的8个数据集上全面超越了经典OVS方法和现有OVRSIS方法，在保持精度显著提升的同时实现约两倍推理加速。消融实验验证了各模块的有效性，其中使用遥感预训练DINO相比自然图像DINO带来明显提升，证明了领域特定知识的重要性；可视化分析显示模型在建筑边界勾勒、植被类型区分和地表分割方面优于基线，但论文也指出模型在阴影干扰和高度区分方面仍存在局限。