

最新论文 | RSCoVLM: 哈工大等提出支持常规和UHR遥感图像的统一VLM, 多任务多分辨率表现优异! 数据代码开源！

遥感与深度学习

2025-12-06

导读：Co-Training Vision Language Models for Remote Sensing Multi-task Learning

RS DL

题目：Co-Training Vision Language Models for Remote Sensing Multi-task Learning

论文：https://arxiv.org/abs/2511.21272

代码：https://github.com/VisionXLab/RSCoVLM

数据：https://huggingface.co/datasets/Qingyun/remote-sensing-sft-data

单位：哈尔滨工业大学，上海交通大学，西安电子科技大学，华东师范大学，武汉大学，东南大学，国防科技大学，香港中文大学

年份：2025

原作者审阅认证

创新点

1. 统一的多任务VLM框架

首个同时支持常规和UHR遥感图像的统一VLM。涵盖分类、检测、定位、问答等多任务。突破现有模型仅专注单一分辨率域或任务类型的限制，实现真正的多任务学习。

2. 数据管理引擎 + 动态分辨率策略

建立完整的数据采集-处理-加载流程，统一异构边界框格式。支持任意尺寸输入（224×224至1,008×1,008），坐标系统随分辨率自适应缩放。通过动态采样权重和多尺度增强实现多任务数据平衡。

3. Zoom-in Chain机制

模拟人类"缩放观察"处理UHR图像的流程。构建302k样本的LRS-VQA-Zoom数据集（含模板、GPT-4V合成、多选题数据）。无需视觉token剪枝的额外训练，在LRS-VQA上相比基线提升35%。

4. 公平的目标检测评估体系

提出APnc（无置信度AP）指标，解决VLM无法输出置信度分数的问题。首次实现VLM与传统检测器的直接性能对比（标准差<0.5%）。检测性能首次匹敌传统专用模型。

背景

地球观测系统积累了海量遥感数据，迫切需要自动化解译技术，但传统方法针对单一任务（如分类、检测、问答）设计专用模型，存在数据异构、无法知识共享、泛化能力弱等问题。多任务学习(MTL)通过单一模型处理多任务，能跨任务共享知识、缓解数据不足并提升泛化能力。随着Transformer在多领域的成功和视觉语言模型(VLM)的兴起，利用统一文本接口表达不同任务输出、通过指令微调实现任务泛化成为可能。

然而，现有遥感VLM要么仅关注常规图像的语义理解（如GeoChat、VHM），要么专注于视觉定位（如GeoGround）或超高分辨率(UHR)图像（如GeoLLaVA-8k），缺乏统一框架同时处理多分辨率、多任务的能力，且在关键的目标检测任务上表现不足，急需一个真正通用的遥感多任务VLM基线。

数据

数据规模

总量：155万张图像，146万条对话
核心数据集：LRS-VQA-Zoom（302k样本，专为UHR图像推理构建）

数据来源

1. 现有数据集整合

描述类任务：VHM和GeoChat的指令微调数据（分类、描述、问答等）
定位任务：refGeo数据集（视觉定位）
时序数据：TEOChatlas（多时相图像）
检测任务：DOTA-v1.0数据集
通用能力：LLaVA-OneVision数据子集（图表、OCR等，防止能力退化）

2. 新构建的LRS-VQA-Zoom数据集

基于DOTA1.0、GLH-Bridge、STAR三个UHR数据集构建，包含三类：

60k模板数据：9宫格分区的计数和比较问题
159k GPT-4V合成数据：多样化问答（颜色、类别、形状、空间推理、场景上下文等）
83k多选题数据：将开放式问答转换为MCQ格式

方法

整体框架

RSCoVLM采用经典的VLM架构，包含视觉编码器、文本分词器和统一的语言模型解码器。视觉编码器提取图像特征，文本分词器处理指令文本，通过双模态投影层将视觉特征映射到语言token空间，然后统一解码器处理融合特征并生成文本形式的输出。训练时使用下一个token预测的交叉熵损失，推理时采用自回归生成策略。

核心方法组件

1. 数据管理引擎

数据获取：整合现有开源VLM的数据配方（如VHM、GeoChat的描述类数据，refGeo的定位数据，TEOChatlas的时序数据），补充任务特定训练集（如DOTA检测数据），并构建合成数据管道生成新标注。
离线处理：移除任务描述符标签，统一用自然语言提示替代；规范化边界框表示（水平框、旋转框、四边形框）并统一坐标格式；建立统一数据格式（对话采用OpenAI消息结构，检测遵循COCO规范）；进行规则化清洗去除冗余标点和拼写错误。
在线加载与权重控制：将数据组织为多个子集单元，训练时动态预处理；随机选择Agent提示增强鲁棒性；支持标准和JSON输出格式随机切换；应用同义词替换和数据增强；为每个子集分配采样权重，动态控制任务比例以平衡多任务学习。

2. 动态分辨率策略

全尺度视觉输入：借鉴Qwen2-VL的原生分辨率方案，计算能完全包裹输入图像的最紧凑形状（以patch大小为单位向上取整），支持任意长宽比的输入。设置最小尺寸保证足够视觉信号，最大尺寸受限于训练资源，将输入分为小图像（需放大）、常规图像和UHR图像三类。
可扩展边界框：坐标分辨率动态匹配输入图像分辨率，避免GeoChat式的精度不足（504输入但100坐标）和GeoGround式的过度精度（336输入但1000坐标）问题。这种设计自然适应不同输入尺寸，允许根据定位精度需求和计算约束灵活调整推理成本。
随机缩放增强：训练时对每个任务的输入图像随机缩放到不同分辨率，定位和检测任务中边界框同步缩放保持空间一致性。实验表明这显著提升了模型对输入尺寸变化的鲁棒性，并增强了高分辨率推理时的性能。

3. Zoom-in Chain机制

人类推理模拟：模仿人类分析UHR图像的工作流程——先扫描全图识别感兴趣区域(RoI)，再放大到该区域执行实际任务。具体流程为：输入降采样的UHR图像+提示+问题 → 模型预测RoI坐标 → 裁剪该区域以原生分辨率重新输入 → 结合初始和新输入生成最终答案。

LRS-VQA-Zoom数据集构建：基于DOTA1.0、GLH-Bridge、STAR三个UHR数据集构建302k样本，包含三类数据：

60k模板生成数据：将图像分9宫格，基于目标密度生成计数和比较问题，保留绝对坐标
159k GPT-4V合成数据：识别独特目标实例，裁剪粗略区域，用GPT-4V生成多样化问答（颜色、类别、形状、状态、空间推理、场景上下文等），记录粗略区域的水平框坐标
83k多选题数据：将开放式问答转换为MCQ格式，用GPT-4生成三个干扰项，随机打乱选项避免位置偏差

4. 自回归目标检测

响应规范化：每个目标表示为类别标签+8参数四边形框（顺时针顶点坐标，最小纵坐标点为起点）。采用一致模板确保唯一性和顺序：按类别名字母序分组，组内按起始顶点位置排序。保留无目标图像并训练模型输出"There is none."以缓解幻觉问题。
公平评估指标APnc：提出无置信度的平均精度(APnc)，解决VLM无法输出置信度分数的问题。对传统检测器，先用置信度阈值过滤预测，再将剩余预测的置信度随机化或设为常数来计算APnc。通过在验证集上扫描0.00-0.95的阈值（步长0.05）选择最优阈值用于测试集评估。实验显示APnc的标准差小于0.5%，证明其作为评估指标的稳定性。报告APnc50、APnc75和APnc50:95三个变体，首次实现VLM与传统模型的公平对比。

实验与分析

RSCoVLM在五大任务类型（UHR图像理解、视觉定位、目标检测、场景分类、视觉问答）的所有基准测试中均达到SOTA性能，全面超越现有遥感VLM和通用VLM。特别地，本文首次实现了VLM在密集航空目标检测任务上与传统专用检测器性能相当，证明了统一多任务框架在保持各任务竞争力的同时显著提升了模型的泛化能力和实用性。