极市导读
浙大、中国空间技研院与布里斯托大学联合提出 Geo-R1,用“先推理后行动”的强化微调范式,在 5-shot 遥感指称理解任务上将指标一举提升 17 个百分点,并给出可解释推理链,为标注稀缺场景提供即插即用新基线。>>加入极市CV技术交流群,走在计算机视觉的最前沿
在遥感图像分析领域,让AI理解复杂的自然语言指令,并精准定位目标物体,一直是个充满挑战的课题。特别是当标注数据稀缺时,现有方法往往力不从心。
最近,来自 浙江大学、中国空间技术研究院 和 布里斯托大学 的研究团队,共同提出了一项名为 Geo-R1 的创新方法。它旨在解决少样本遥感指称表达理解(Few-Shot Geospatial Referring Expression Understanding)的难题,通过引入“先推理,后行动”的强化微调范式,显著提升了模型的泛化能力和可解释性。CV君觉得,这项工作是近期遥感AI领域在数据稀缺的场景下也能“聪明”工作的值得借鉴的探索。
-
论文标题: Geo-R1: Improving Few-Shot Geospatial Referring Expression Understanding with Reinforcement Fine-Tuning -
论文作者: Zilun Zhang, Zian Guan, Tiancheng Zhao, Haozhan Shen, Tianyu Li, Yuxiang Cai, Zhonggen Su, Zhaojun Liu, Jianwei Yin, Xiang Li -
作者机构: 浙江大学; 中国空间技术研究院; 布里斯托大学 -
论文地址: https://arxiv.org/abs/2509.21976 -
项目主页: http://geo-r1.github.io -
代码仓库: https://github.com/geo-r1/geo-r1 -
模型地址: https://huggingface.co/Geo-R1
01 背景:遥感指称理解的“数据饥渴症”
遥感图像(如卫星图、航拍图)中包含了丰富的地理空间信息。让AI理解“找到机场上最左边的飞机”或“定位城市公园里有三点线的篮球场”这类自然语言指令,并准确圈出目标,就是遥感指称表达理解(REU)任务。这项任务在军事侦察、城市规划、灾害评估等领域都有重要应用。
然而,REU任务面临着独特的挑战:
-
复杂的目标-上下文关系:遥感图像视角独特,目标物体可能很小,且与周围环境有复杂的空间和语义关系。 -
数据标注成本高昂:高质量的遥感图像标注需要专业知识和大量人力,导致标注数据往往非常稀缺。
现有基于多模态大语言模型(MLLM)的监督微调(SFT)方法,虽然在拥有海量标注数据时表现出色,但在数据稀缺的少样本(Few-Shot)场景下,其泛化能力会急剧下降,难以适应真实世界的应用需求。
02 Geo-R1的核心策略:“先推理,后行动”的强化微调
为了解决少样本遥感指称理解的难题,Geo-R1提出了一种以 推理为核心的强化微调(Reasoning-centric Reinforcement Fine-Tuning, RFT) 范式。其核心思想是让模型在行动(定位目标)之前,先进行明确、可解释的推理。
如上图所示,Geo-R1的流程可以概括为以下两步:
-
生成可解释的推理链(Generate Reasoning Chains):模型首先被强制生成一系列明确、可解释的推理步骤。这些推理步骤会分解复杂的指称表达,例如,将“位于停车位中心线最左侧的车辆”分解为“识别停车位中心线”→“找到中心线最左侧的车辆”。 -
利用推理定位目标(Localize Target Objects with Rationales):模型随后利用这些生成的推理依据,来精准地定位目标物体(可以是边界框或分割掩码)。
这种“先推理,后行动”的过程,使得模型能够更有效地利用有限的标注数据,显著增强了模型的泛化能力,并且提供了宝贵的可解释性。这种设计挺符合人类的认知过程,让AI不再是“黑箱”,而是能“说出”自己思考过程的智能体。
03 实验设计与结果:少样本与跨数据集的全面超越
为了全面验证Geo-R1的有效性,研究团队精心设计了三个少样本遥感指称理解基准,涵盖了不同的任务类型:
上表展示了Geo-R1在三个少样本数据集上的任务类型和数据概览。
3.1 少样本指称表达理解(FS-REC)
在VRSBench-FS数据集上,Geo-R1在少样本设置下,持续且显著地超越了SFT基线。例如,在10-shot设置下,Geo-R1的Acc@0.5分数比SFT高出 12.30% ,在5-shot设置下,更是高出 17.13% 。这表明Geo-R1在数据量极少的情况下,能够更有效地学习和泛化。
上表展示了Geo-R1在VRSBench-FS数据集上FS-REC任务的性能对比,其中Geo-R1在不同shot设置下均显著优于SFT基线。
3.2 少样本开放词汇目标检测(FS-OVD)
在FS-NWPU数据集上,Geo-R1同样展现了优异的性能,在飞机、船舶、地面轨道场和车辆等类别上,全面超越了SFT基线,尤其是在数据量更少的5-shot和10-shot设置下,性能优势更为明显。
上表展示了Geo-R1在FS-NWPU数据集上FS-OVD任务的mAP性能,同样全面超越SFT基线。
3.3 少样本指称表达分割(FS-RES)
在EarthReason-FS数据集上,Geo-R1在掩码级别的gIoU指标上,也取得了显著的提升,最高提升了 38.48 个百分点。这证明了Geo-R1在像素级分割任务中同样有效。
上表展示了Geo-R1在EarthReason-FS数据集上FS-RES任务的gIoU性能,同样显著优于SFT基线。
3.4 跨数据集泛化能力
Geo-R1在跨数据集泛化方面也表现出强大的鲁棒性。在VRSBench到DIOR-RSVG以及EarthReason到RRSIS-D的零样本(Zero-Shot)迁移任务中,Geo-R1的性能优势最高达 16.12% ,这表明其学习到的推理能力具有很强的通用性,能够适应不同数据集的风格和内容。
上表展示了Geo-R1在跨数据集评估中的性能,其在所有设置下均持续优于SFT方法。
3.5 学习曲线与模型规模
学习曲线分析表明,Geo-R1在训练过程中始终优于SFT,且性能提升随着训练步数的增加而稳定。此外,Geo-R1在不同模型规模下也展现出良好的性能扩展性,即使在模型参数量增加时,其性能优势依然保持。
上图展示了Geo-R1与SFT在FS-REC任务上的学习曲线对比,Geo-R1在各个检查点都持续优于SFT。
上图展示了Geo-R1在GRES和GREC任务上的成功推理案例,模型能够生成合理的推理过程并准确识别目标。
04 总结与展望
Geo-R1通过引入“先推理,后行动”的强化微调范式,为少样本遥感指称理解提供了一个创新且高效的解决方案。它不仅显著提升了模型在数据稀缺场景下的泛化能力,还通过生成可解释的推理链,增强了模型的可信度。
小编认为,Geo-R1的成功证明了在视觉语言模型中融入推理能力的重要性,尤其是在需要处理复杂上下文和有限标注数据的遥感领域。这项工作为未来开发更智能、更可靠的遥感AI系统奠定了基础。
作者已经将代码和数据开源,强烈推荐大家去项目主页查看和体验!

公众号后台回复“数据集”获取100+深度学习各方向资源整理
极市干货

点击阅读原文进入CV社区
收获更多技术干货

