RS DL
题目:Look Where It Matters: Training-Free Ultra-HR Remote Sensing VQA via Adaptive Zoom Search
论文:https://arxiv.org/abs/2511.20460
项目:https://kiki-zyq.github.io/Zoom-Search/
原作者审阅认证
创新点
提出训练自由的即插即用框架,将"在哪看"与"如何回答"解耦,无需微调即可适配现有遥感基础模型处理超高分辨率影像
设计自适应多分支缩放搜索算法,通过分层3×3网格递归细分和自适应top-k分支策略,有效应对遥感目标的多尺度和空间分散特性
提出布局感知的patch重组方法,同时保留局部拓扑关系和全局方位信息,构建紧凑且空间一致的视觉画布
融合双重评分机制,结合外部模型的patch-text相关性和基础模型的置信度证据,并采用深度自适应的权重融合策略
背景
随着低轨卫星星座、高性能传感器和端到端成像管道的进步,超高分辨率(2-20K像素)遥感影像在城市监测、环境监控和灾害响应等领域日益普及。然而,现有遥感基础模型面临感知能力和能处理的分辨率不匹配的问题:全图编码会导致视觉token数量激增(如8K图像需约30万token)造成显存溢出和推理成本过高,而缩放预处理则会丢失细粒度的答案关键细节(如小目标、精细结构)。
现有解决方案如token剪枝需要依赖下采样操作仍会损失细节,而检索增强生成(RAG)方法则依赖外部数据库的质量和可靠性。这些方法虽然路径不同,但都揭示了一个共同洞察:模型必须"看对地方"(look where it matters)。基于此动机,本文将"在哪看"重新定义为答案生成前的显式搜索问题,提出ZoomSearch框架通过分层缩放搜索和布局感知重组,在无需训练的前提下让模型聚焦查询相关区域,从而同时解决token预算和细节保留的矛盾。
数据
LRS-VQA 数据集
分辨率: 1024-27328像素
图像: 卫星和航空影像
任务: 开放式问答,8类问题(计数、颜色、类别、形状、状态、推理、城乡分类、目标背景)
实验: Pilot用2000样本,完整评估用全部数据
MME-RealWorld-RS 数据集
分辨率: 689-11500像素
图像: 真实世界遥感影像
任务: 多选题,3类问题(位置、颜色、计数)
方法
方法概览
ZoomSearch将超高分辨率遥感VQA分解为三个模块:
搜索算子S: 定位查询相关区域
重组算子R: 将选定区域组合成紧凑画布
基础模型F: 基于重组画布预测答案
核心理念:先定位"在哪看",再解决"如何回答"
一、自适应多分支缩放搜索
树状搜索结构
将图像表示为树:根节点是完整图像,每个节点分裂为3×3网格
从粗到细逐层递进,定位查询相关区域
三个停止条件
Patch边长 ≤ 最小搜索单元
达到最大深度
模型置信度超过深度相关阈值(随深度递减)
自适应分支策略
对每个候选patch的9个子节点计算评分并归一化
保留归一化评分超过固定阈值
的所有子节点至少保留1个最佳节点,最多保留
个节点优势: 同时处理目标空间分散和跨patch分割的情况
二、布局感知的Patch重组
四步重组流程
步骤1: 粗网格初始化
将原图划分为3×3粗粒度区域
根据patch位置分配到对应粗区域
步骤2: 局部压缩
在每个粗区域内移除空行列
保留区域内patch的相对位置
步骤3: 全局尺寸统一
计算所有非空区域的最大高度
和宽度作为最终画布的统一cell尺寸
步骤4: 画布生成
创建
空白画布将每个压缩区域调整到
后放置到对应象限关键: 同时保留局部拓扑关系和全局方位信息
三、双重评分机制
Patch-文本相关性
将patch分解为固定尺寸tiles
使用外部评分模型(如VISRAG)计算每个tile与查询的余弦相似度
创新: 仅保留相似度前50%的tiles,其余用灰色填充
相关性评分 = 保留tiles的平均相似度
动机: 过滤遥感影像中的大量背景区域
模型证据信号
向基础模型提问:"能否看到回答此问题所需的视觉内容?"
读取模型输出"Yes"的置信度概率
评估当前patch是否包含足够答案证据
深度自适应融合
浅层搜索:更依赖patch-文本相关性(外部模型判断更可靠)
深层搜索:逐渐增加模型证据权重(基础模型对局部patch判断更准确)
融合后应用sigmoid归一化,用于排序和阈值比较
完整推理流程
搜索阶段
从3×3根网格初始化
迭代扩展:评估→计算评分→判断停止→分裂→自适应选择
输出选定的patch集合Psel
重组阶段
分配patch到粗网格
局部压缩 + 全局尺寸统一
生成紧凑且布局一致的画布
答案预测
将画布和查询输入基础模型生成答案
五、关键优势
训练自由: 无需训练控制器或修改基础模型
即插即用: 可与任意视觉-语言模型组合
多尺度适应: 分层搜索自然处理不同尺度目标
空间关系保持: 双重布局约束(局部+全局)提升推理能力
高效: 自适应分支+停止条件,速度提升20-44%
实验与分析
实验在LRS-VQA和MME-RealWorld-RS两个超高分辨率遥感VQA基准上,与闭源模型、开源通用模型、遥感专用模型和其他搜索方法共13个基线对比,ZoomSearch在所有任务上均取得最佳准确率,同时推理速度显著优于其他搜索方法。
消融实验验证了分层搜索策略、布局感知重组、自适应分支机制和双重评分剪枝等关键设计的有效性,证明了同时保留局部拓扑和全局方位信息对超高分辨率遥感VQA的重要性。

2025-11-25
2025-04-02
2025-09-27
2025-08-30

欢迎关注
分享遥感与深度学习领域的技术、论文、书籍、新鲜事。
欢迎加入遥感与深度学习交流群(点此加入)。


