论文介绍
题目:Seeing through Satellite Images at Street Views
单位:武汉大学,蚂蚁集团
创新点
单张卫星图生成一致的街景视频
首个能仅用卫星-街景对,就生成多视角一致、真实感强的街景全景视频的方法,不需要额外 3D 注释或高度图。
光照自适应神经辐射场
在 Sat2Density 基础上,提出了 Sat2Density++,把单一密度场升级为可调光照的神经辐射场,显式建模了街景特有的天空和光照,保证生成效果真实且可控。
分支式生成框架 + 三平面表示
设计了基于 Tri-plane 的 3D 表示 + 单独天空生成分支 + alpha 混合,精准分离地面和天空,解决视角差异与可见性差异难题。
数据
CVUSA & CVACT:
郊区场景,提供一对一配对的卫星图像与街景图像,街景拍摄点位于卫星图中心。VIGOR:
复杂城市场景(芝加哥、纽约、旧金山、西雅图),每组样本包含 1 张卫星图和 2~3 张不同位置的街景全景,覆盖多视角变化。训练样本量:
CVUSA:35,532 训练对,8,884 测试对
CVACT:26,519 训练对,6,288 测试对
VIGOR:40,733 训练对,5,000 同域测试对,11,875 西雅图跨域测试对
方法
整体目标与输入
从一张卫星图像出发,生成对应地点的逼真街景全景图像或视频。
可根据指定的相机位置或轨迹生成多视角一致的街景序列。
不依赖额外的 3D 注释或高度图等外部条件。
核心思路
用神经辐射场(NeRF)作为 3D 表示的基础,但针对大视角差异(卫星到街景)和稀疏样本进行改进。
采用三平面(Tri-plane)表示,把复杂的 3D 场景编码到三个 2D 特征平面中,提升采样和查询效率。
同时建模场景的几何(密度)和外观(颜色、光照),以应对复杂城市环境。
主要模块
1) Tri-plane 特征生成
输入:256×256 的卫星图像。
经过 Tri-plane 网络提取高维图像特征。
特征被分割成三个 2D 平面(XY、ZY、XZ),组成三平面表示,用于后续点查询和体渲染。
2) 街景光照建模
用街景图像的天空区域来获取真实的环境光照信息。
使用预训练分割模型获得天空掩膜,然后对天空像素做 RGB 直方图统计,得到光照特征。
训练时直接从真实天空中提取;测试时随机从训练集光照分布中采样,可控制合成图像的光照效果。
3) 光照自适应三平面解码器
对每个采样点,从三平面查询到的特征输入到解码器。
解码器包含两条分支:一条输出密度信息,一条结合光照输入生成外观特征(颜色)。
光照输入通过多层感知机编码后注入解码器,实现对不同光照条件的自适应。
街景图像生成流程
1) 地面部分渲染
根据指定的街景相机位姿,从三平面中查询特征,沿相机射线对采样点进行体渲染。
生成地面部分的 RGB 特征、深度和透明度图。
2) 天空部分生成
单独设计一个 2D 天空生成器,基于光照输入生成天空图像。
生成器结构基于现有的高质量图像生成网络(如 StyleGAN)。
3) 融合与超分辨率
地面渲染结果与天空生成结果通过透明度混合在一起,形成低分辨率的街景全景图。
最后通过轻量级超分辨率网络放大到高分辨率,得到最终输出。
卫星视角渲染(训练时使用)
为了保证 3D 表示与输入卫星图像对齐,还会从学到的三维场景中渲染卫星视角的图像。
卫星视角渲染中不使用天空生成器,光照输入设为零,保证对地面内容的几何约束。
训练损失设计
非天空不透明度损失
用天空掩膜约束模型准确区分天空与地面,提高几何一致性。
多重重建损失
卫星视角图像与输入卫星图像对齐的重建;
地面街景与真实街景图像对齐的重建;
天空区域单独对齐真实天空。
感知与对抗约束
使用感知损失(如 LPIPS)保证高层语义一致性;
对抗损失(GAN)保证生成结果更真实,细节更丰富。
多任务联合训练
所有模块端到端一起训练,保证地面、天空、光照条件可以一致优化。
实验与分析
作者通过在多套真实城市和郊区数据上的实验,验证了所提方法在生成街景图像和视频时的真实性、一致性和对输入卫星图像的忠实程度均优于现有方法。用户研究和量化对比都表明,该方法在复杂场景下表现尤为突出,具备较好的泛化能力。
更多图表分析可见原文
- END -




