大数跨境
0
0

最新论文 | ZoomSearch: 央财/清华/华师提出即插即用框架, 可适配任意遥感基础模型处理超高分辨率影像

最新论文 | ZoomSearch: 央财/清华/华师提出即插即用框架, 可适配任意遥感基础模型处理超高分辨率影像 遥感与深度学习
2025-12-02
0
导读:Look Where It Matters: Training-Free Ultra-HR Remote Sensing VQA via Adaptive Zoom Search

 RS   DL 

题目Look Where It Matters: Training-Free Ultra-HR Remote Sensing VQA via Adaptive Zoom Search

论文https://arxiv.org/abs/2511.20460

项目https://kiki-zyq.github.io/Zoom-Search/

单位:中央财经大学,清华大学,华东师范大学
年份:2025

原作者审阅认证

创新点


  • 提出训练自由的即插即用框架,将"在哪看"与"如何回答"解耦,无需微调即可适配现有遥感基础模型处理超高分辨率影像

  • 设计自适应多分支缩放搜索算法,通过分层3×3网格递归细分和自适应top-k分支策略,有效应对遥感目标的多尺度和空间分散特性

  • 提出布局感知的patch重组方法,同时保留局部拓扑关系和全局方位信息,构建紧凑且空间一致的视觉画布

  • 融合双重评分机制,结合外部模型的patch-text相关性和基础模型的置信度证据,并采用深度自适应的权重融合策略

背景


随着低轨卫星星座、高性能传感器和端到端成像管道的进步,超高分辨率(2-20K像素)遥感影像在城市监测、环境监控和灾害响应等领域日益普及。然而,现有遥感基础模型面临感知能力和能处理的分辨率不匹配的问题:全图编码会导致视觉token数量激增(如8K图像需约30万token)造成显存溢出和推理成本过高,而缩放预处理则会丢失细粒度的答案关键细节(如小目标、精细结构)。

现有解决方案如token剪枝需要依赖下采样操作仍会损失细节,而检索增强生成(RAG)方法则依赖外部数据库的质量和可靠性。这些方法虽然路径不同,但都揭示了一个共同洞察:模型必须"看对地方"(look where it matters)。基于此动机,本文将"在哪看"重新定义为答案生成前的显式搜索问题,提出ZoomSearch框架通过分层缩放搜索和布局感知重组,在无需训练的前提下让模型聚焦查询相关区域,从而同时解决token预算和细节保留的矛盾。

          数据


          LRS-VQA 数据集

          • 分辨率: 1024-27328像素

          • 图像: 卫星和航空影像

          • 任务: 开放式问答,8类问题(计数、颜色、类别、形状、状态、推理、城乡分类、目标背景)

          • 实验: Pilot用2000样本,完整评估用全部数据

          MME-RealWorld-RS 数据集

          • 分辨率: 689-11500像素

          • 图像: 真实世界遥感影像

          • 任务: 多选题,3类问题(位置、颜色、计数)

          方法


          方法概览

          ZoomSearch将超高分辨率遥感VQA分解为三个模块:

          • 搜索算子S: 定位查询相关区域

          • 重组算子R: 将选定区域组合成紧凑画布

          • 基础模型F: 基于重组画布预测答案

          核心理念:先定位"在哪看",再解决"如何回答"

          一、自适应多分支缩放搜索

          树状搜索结构

          • 将图像表示为树:根节点是完整图像,每个节点分裂为3×3网格

          • 从粗到细逐层递进,定位查询相关区域

          三个停止条件

          • Patch边长 ≤ 最小搜索单元   

          • 达到最大深度   

          • 模型置信度超过深度相关阈值(随深度递减)

          自适应分支策略

          • 对每个候选patch的9个子节点计算评分并归一化

          • 保留归一化评分超过固定阈值   的所有子节点

          • 至少保留1个最佳节点,最多保留   个节点

          • 优势: 同时处理目标空间分散和跨patch分割的情况

          二、布局感知的Patch重组

          四步重组流程

          步骤1: 粗网格初始化

          • 将原图划分为3×3粗粒度区域

          • 根据patch位置分配到对应粗区域

          步骤2: 局部压缩

          • 在每个粗区域内移除空行列

          • 保留区域内patch的相对位置

          步骤3: 全局尺寸统一

          • 计算所有非空区域的最大高度   和宽度   

          • 作为最终画布的统一cell尺寸

          步骤4: 画布生成

          • 创建   空白画布

          • 将每个压缩区域调整到   后放置到对应象限

          • 关键: 同时保留局部拓扑关系和全局方位信息

          三、双重评分机制

          Patch-文本相关性

          • 将patch分解为固定尺寸tiles

          • 使用外部评分模型(如VISRAG)计算每个tile与查询的余弦相似度

          • 创新: 仅保留相似度前50%的tiles,其余用灰色填充

          • 相关性评分 = 保留tiles的平均相似度

          • 动机: 过滤遥感影像中的大量背景区域

          模型证据信号

          • 向基础模型提问:"能否看到回答此问题所需的视觉内容?"

          • 读取模型输出"Yes"的置信度概率

          • 评估当前patch是否包含足够答案证据

          深度自适应融合

          • 浅层搜索:更依赖patch-文本相关性(外部模型判断更可靠)

          • 深层搜索:逐渐增加模型证据权重(基础模型对局部patch判断更准确)

          • 融合后应用sigmoid归一化,用于排序和阈值比较

          完整推理流程

          搜索阶段

          • 从3×3根网格初始化

          • 迭代扩展:评估→计算评分→判断停止→分裂→自适应选择

          • 输出选定的patch集合Psel

          重组阶段

          • 分配patch到粗网格

          • 局部压缩 + 全局尺寸统一

          • 生成紧凑且布局一致的画布

          答案预测

          将画布和查询输入基础模型生成答案

          五、关键优势

          • 训练自由: 无需训练控制器或修改基础模型

          • 即插即用: 可与任意视觉-语言模型组合

          • 多尺度适应: 分层搜索自然处理不同尺度目标

          • 空间关系保持: 双重布局约束(局部+全局)提升推理能力

          • 高效: 自适应分支+停止条件,速度提升20-44%

          实验与分析


          实验在LRS-VQA和MME-RealWorld-RS两个超高分辨率遥感VQA基准上,与闭源模型、开源通用模型、遥感专用模型和其他搜索方法共13个基线对比,ZoomSearch在所有任务上均取得最佳准确率,同时推理速度显著优于其他搜索方法。

          消融实验验证了分层搜索策略、布局感知重组、自适应分支机制和双重评分剪枝等关键设计的有效性,证明了同时保留局部拓扑和全局方位信息对超高分辨率遥感VQA的重要性。

          更多图表分析可见原文 



          我们目前有交流群,包括作者群、竞赛群及语义分割、变化检测等方向群。详见:交流群说明


          欢迎优秀作者投稿,我们免费发布推广您的成果!投稿说明请查看:投稿说明

          如需加群、投稿、合作,请扫描上方二维码联系小助手,请备注:”咨询/投稿/合作/加群“+"姓名/昵称"+”单位"+"研究方向"
          往期推荐

          最新论文 | ZoomEarth: 西交大提出面向大尺寸/高分辨率遥感图像视觉-语言任务的主动感知方法! 数据代码模型开源!

          2025-11-25

          CVPR2025 | 超大幅面尺度下, 多模态大模型还能完成遥感感知与推理吗?

          2025-04-02

          NeurIPS Spotlight 2025 | 支持原生分辨率8k以上遥感超大幅面卫星数据智能解译! 数据代码全开源!

          2025-09-27

          ICCV2025 | HoliTracer: 武大团队提出大尺寸遥感影像地物整体矢量化方法, 数据代码开源!

          2025-08-30

            欢迎关注  


          分享遥感与深度学习领域的技术、论文、书籍、新鲜事。



          欢迎加入遥感与深度学习交流群(点此加入)

          【声明】内容源于网络
          0
          0
          遥感与深度学习
          聚焦遥感与深度学习,分享相关技术、论文、书籍、资讯,团队来自国内外著名期刊作者及审稿人
          内容 518
          粉丝 0
          遥感与深度学习 聚焦遥感与深度学习,分享相关技术、论文、书籍、资讯,团队来自国内外著名期刊作者及审稿人
          总阅读223
          粉丝0
          内容518