大数跨境
0
0

武大, 蚂蚁集团:透过卫星影像“看见”街景

武大, 蚂蚁集团:透过卫星影像“看见”街景 GIS前沿
2025-07-02
2

论文介绍

题目Seeing through Satellite Images at Street Views

论文:https://arxiv.org/abs/2505.17001
项目https://qianmingduowan.github.io/sat2density-pp/
年份:2025

单位武汉大学,蚂蚁集团

创新点


  • 单张卫星图生成一致的街景视频


    • 首个能仅用卫星-街景对,就生成多视角一致、真实感强的街景全景视频的方法,不需要额外 3D 注释或高度图。

  • 光照自适应神经辐射场


    • 在 Sat2Density 基础上,提出了 Sat2Density++,把单一密度场升级为可调光照的神经辐射场,显式建模了街景特有的天空和光照,保证生成效果真实且可控。

  • 分支式生成框架 + 三平面表示


    • 设计了基于 Tri-plane 的 3D 表示 + 单独天空生成分支 + alpha 混合,精准分离地面和天空,解决视角差异与可见性差异难题。

数据


  • CVUSA & CVACT
    郊区场景,提供一对一配对的卫星图像与街景图像,街景拍摄点位于卫星图中心。

  • VIGOR
    复杂城市场景(芝加哥、纽约、旧金山、西雅图),每组样本包含 1 张卫星图和 2~3 张不同位置的街景全景,覆盖多视角变化。

  • 训练样本量:

    • CVUSA:35,532 训练对,8,884 测试对

    • CVACT:26,519 训练对,6,288 测试对

    • VIGOR:40,733 训练对,5,000 同域测试对,11,875 西雅图跨域测试对

方法


整体目标与输入

  • 从一张卫星图像出发,生成对应地点的逼真街景全景图像或视频。

  • 可根据指定的相机位置或轨迹生成多视角一致的街景序列。

  • 不依赖额外的 3D 注释或高度图等外部条件。

核心思路

  • 用神经辐射场(NeRF)作为 3D 表示的基础,但针对大视角差异(卫星到街景)和稀疏样本进行改进。

  • 采用三平面(Tri-plane)表示,把复杂的 3D 场景编码到三个 2D 特征平面中,提升采样和查询效率。

  • 同时建模场景的几何(密度)和外观(颜色、光照),以应对复杂城市环境。

主要模块

1) Tri-plane 特征生成

  • 输入:256×256 的卫星图像。

  • 经过 Tri-plane 网络提取高维图像特征。

  • 特征被分割成三个 2D 平面(XY、ZY、XZ),组成三平面表示,用于后续点查询和体渲染。

2) 街景光照建模

  • 用街景图像的天空区域来获取真实的环境光照信息。

  • 使用预训练分割模型获得天空掩膜,然后对天空像素做 RGB 直方图统计,得到光照特征。

  • 训练时直接从真实天空中提取;测试时随机从训练集光照分布中采样,可控制合成图像的光照效果。

3) 光照自适应三平面解码器

  • 对每个采样点,从三平面查询到的特征输入到解码器。

  • 解码器包含两条分支:一条输出密度信息,一条结合光照输入生成外观特征(颜色)。

  • 光照输入通过多层感知机编码后注入解码器,实现对不同光照条件的自适应。

街景图像生成流程

1) 地面部分渲染

  • 根据指定的街景相机位姿,从三平面中查询特征,沿相机射线对采样点进行体渲染。

  • 生成地面部分的 RGB 特征、深度和透明度图。

2) 天空部分生成

  • 单独设计一个 2D 天空生成器,基于光照输入生成天空图像。

  • 生成器结构基于现有的高质量图像生成网络(如 StyleGAN)。

3) 融合与超分辨率

  • 地面渲染结果与天空生成结果通过透明度混合在一起,形成低分辨率的街景全景图。

  • 最后通过轻量级超分辨率网络放大到高分辨率,得到最终输出。

卫星视角渲染(训练时使用)

  • 为了保证 3D 表示与输入卫星图像对齐,还会从学到的三维场景中渲染卫星视角的图像。

  • 卫星视角渲染中不使用天空生成器,光照输入设为零,保证对地面内容的几何约束。

训练损失设计

  • 非天空不透明度损失

    • 用天空掩膜约束模型准确区分天空与地面,提高几何一致性。

  • 多重重建损失

    • 卫星视角图像与输入卫星图像对齐的重建;

    • 地面街景与真实街景图像对齐的重建;

    • 天空区域单独对齐真实天空。

  • 感知与对抗约束

    • 使用感知损失(如 LPIPS)保证高层语义一致性;

    • 对抗损失(GAN)保证生成结果更真实,细节更丰富。

  • 多任务联合训练

    • 所有模块端到端一起训练,保证地面、天空、光照条件可以一致优化。

实验与分析


作者通过在多套真实城市和郊区数据上的实验,验证了所提方法在生成街景图像和视频时的真实性、一致性和对输入卫星图像的忠实程度均优于现有方法。用户研究和量化对比都表明,该方法在复杂场景下表现尤为突出,具备较好的泛化能力。

更多图表分析可见原文


文章授权转载:遥感与深度学习



- END -




历史干货


从外业到内业!1:500地形图(密集城区)制作技术流程
超1000G!倾斜、正射、0.15米遥感影像、激光雷达、多光谱高分辨率原始数据下载
大疆M4E全方位测评!二三维效果、效率、精度与M3E、M300+P1谁更强?
你要的CORS账号,价格打下来了!只要8毛
空域申请 | 无人机航测UOM系统合法飞行申请流程
各种插件数据下载



【声明】内容源于网络
0
0
GIS前沿
分享测绘地信资讯,交流行业软件技巧。
内容 4923
粉丝 0
GIS前沿 分享测绘地信资讯,交流行业软件技巧。
总阅读9.7k
粉丝0
内容4.9k