,
创新点
首次将世界模型引入遥感领域,提出方向条件的空间外推任务形式化框架。
构建RSWISE评估基准,包含1,600个任务,首创FID(视觉保真)+ GPT-4o(空间推理)双维度评估体系。
提出RemoteBAGEL模型,通过轨迹式数据构建和重建驱动训练实现无标注学习。
RSWISE综合得分88.8,相比最强基线BAGEL提升42.3%,验证了专门化遥感世界模型的有效性。
背景
世界模型在机器人导航和自动驾驶等领域展现出预测和推理未观测状态的潜力,但现有研究主要局限于合成环境或受限场景,缺乏在真实世界大尺度空间结构上的验证。
遥感领域天然编码着城市路网、河流系统等"世界级"结构,且洪水预测、城市规划等高影响应用迫切需要超越直接观测区域的空间推理能力,但当前遥感研究主要聚焦于分类、分割等识别任务,世界建模潜力未被挖掘。本文旨在填补这一空白,首次将世界模型引入遥感领域,通过方向条件的空间外推任务,为真实世界空间推理提供测试平台和技术方案。
数据
数据来源
三个公开数据集:Sky-SA(通用)、FloodNet(洪水)、LoveDA(城市/农村)
训练数据
原始图像:约4,000张卫星/航拍图像
处理方式:3×3重叠网格分割
训练实例:10,080个方向标注图块对(中心图块+4个方向的相邻图块)
评估数据(RSWISE基准)
总评估任务:1,600个
构成:100张图像 × 4个场景 × 4个方向
场景分布:
通用场景:400个任务
洪水场景:400个任务
城市场景:400个任务
农村场景:400个任务
场景特征
通用(General):多样地貌(山脉、森林、海岸线、混合地形)
洪水(Flood):灾害响应场景,淹没区域和破坏地表
城市(Urban):密集建筑环境,道路网络和建筑布局
农村(Rural):农业区域、自然植被、稀疏居民点
方法
整体框架
RemoteBAGEL是首个专门用于遥感空间推理的世界模型,基于BAGEL-7B多模态模型微调。核心任务是方向条件的空间外推:给定中心遥感图块和方向指令(上/下/左/右),生成该方向上语义连贯的相邻图块。
设计理念:通过动作条件的图块补全,实现精准的方向控制和地理结构延续。
数据构建流程
图像分割与三元组生成
分割策略:将大型卫星图像切分为3×3重叠网格(9个图块),重叠设计保留边界连续性
三元组构建:每个中心图块配对4个方向的相邻图块,形成(中心图块, 方向指令, 目标图块)
轨迹监督:在网格上定义移动轨迹提供连续步骤监督,自然强制空间连续性
数据规模:约4,000张大图生成10,080个方向标注的训练实例
自监督学习
整个过程无需人工标注,仅利用图像的空间排列关系即可自动生成训练数据,大幅降低数据成本。
模型架构(三阶段流程)
阶段1:特征编码
视觉编码器:提取输入图块的视觉特征
动作嵌入:将离散方向(上/下/左/右)转换为学习的embedding向量
阶段2:多模态融合
交叉注意力 + 自注意力:融合视觉特征和方向embedding
捕捉空间-语义依赖关系,理解"向右"、"向上"等指令的含义
方向作为条件token调制整个生成过程
阶段3:生成解码
解码器:合成相邻图块,输出与指令方向一致、地理结构连贯的图像
确保生成内容既有新信息,又与中心图块自然衔接
训练策略
核心目标
学习条件映射:输入(中心图块 + 方向) → 输出(相邻图块预测)
损失函数
使用简单的重建损失:最小化预测图块与真实相邻图块之间的像素差异。无需复杂辅助损失,保持方法简洁高效。
训练配置
基础模型:BAGEL-7B(保持多模态能力)
微调方式:在遥感数据上适配,学习地理空间推理
硬件资源:4× H100 GPU,训练约20小时
超参数:遵循BAGEL默认设置
推理与应用
单方向推理
输入中心图块和方向指令(如"Look right at this picture"),模型输出该方向的空间延续。
多方向推理
对同一中心图块,改变方向指令,可连续生成上下左右4个方向的外推结果,实现完整的空间延展。
结果与分析
RemoteBAGEL在所有场景上均显著优于基线模型,其中通用和农村场景表现最佳,洪水场景因动态边界最具挑战性。分析发现水平方向(左右)比垂直方向(上下)更易建模,因为垂直方向更频繁跨越语义异质边界。基线模型主要失败于简单复制输入或方向错误,而RemoteBAGEL通过遥感领域微调成功实现了真正的空间推理能力。
文章授权转载:遥感与深度学习
- END -




