题目:RooFormer: Reconstructing detailed 3D roof models from high-resolution remote sensing imagery using transformer
期刊:ISPRS Journal of Photogrammetry and Remote Sensing
论文:https://doi.org/10.1016/j.isprsjprs.2025.06.010
年份:2025
创新点
提出基于单张高分辨率遥感影像的端到端 3D 屋顶网格重建方法(RooFormer)。
引入 MeshFormer 分支,基于Transformer结构对网格进行局部自注意建模,提升了3D结构重建能力。
设计了Positional Embedding层,融合图像感知特征与几何信息,实现纹理-几何联合学习。
提出新型几何损失函数,用于衡量预测网格与GT之间的Z轴表面距离,相比Chamfer距离更鲁棒。
具备良好泛化性:无需相机参数即可在多国真实航拍图像中稳定工作。
研究背景
随着数字城市和遥感技术的发展,三维建筑模型在城市模拟、太阳能评估和微气候分析中日益重要,其中屋顶是几何结构中最复杂且关键的部分。然而,传统方法依赖点云或多视角影像,存在成本高、处理流程复杂等问题,单幅遥感图像的三维重建仍面临挑战。因此,本文致力于探索一种无需多视角或外部参数、可从单张高分辨率遥感影像中自动重建细节丰富的三维屋顶模型的新方法。
数据
主数据集:Image-Mesh Paired (IMP) dataset
3585个屋顶,包含配对的高分辨率遥感图像与人工建模的3D屋顶网格。
每个网格顶点数量5~34,图像大小95×103 至 1066×848。
最终用于训练的样本数:2857;测试:714;数据增强后训练集扩增至8571。
测试数据:OpenAerialMap 中的真实航拍图像(不同国家)
方法
RooFormer 网络结构
RooFormer 是一个端到端的深度学习框架,目标是从一张高分辨率遥感图像中直接重建三维屋顶网格模型。
MaskFormer 分支 —— 提取“屋顶在哪”的感知信息
背景:
遥感图像中通常包含很多干扰物(如树、车、道路等),因此需要一个机制帮助模型聚焦在屋顶区域。
组成结构:
Transformer 编码器(如 SwinV2):
将遥感图像编码为多尺度的高维感知特征。
轻量解码器(MLP):
将这些特征还原成空间掩膜,用于预测屋顶的分布区域。
掩膜头(Mask Header):
基于提取到的感知特征,进一步输出一个“屋顶 mask”,即只保留屋顶部分的区域。
作用:
该分支输出的感知特征和掩膜信息被送入下游的 MeshFormer 分支,起到引导作用,使整个网络更关注屋顶而非背景。
MeshFormer 分支 —— 预测三维网格结构
输入:
屋顶图像的感知特征(来自 MaskFormer)
一个初始的三维平面网格(具有固定拓扑)
核心结构包括:
a) 位置嵌入层(Positional Embedding):
使用 UV 映射的方式,将图像特征和三维网格的顶点信息对齐,使得每个顶点都带有图像纹理感知信息。
这一步解决了遥感图像中缺乏相机内参的问题。
b) 多层 MeshFormer 模块:
每个模块由多个 Residual MeshFormer Block 组成,其核心是:
局部自注意力机制(基于网格的拓扑结构):
每个顶点仅与其邻接顶点进行注意力计算,从而大大减少计算量。
类似Transformer中的self-attention,但限制在邻接范围内,更高效且结构感知更强。
残差连接 + 前馈网络:
保证训练稳定性,同时不断增强顶点特征表达。
c) 子网格细化层(Subdivision Layer):
将网格边细分,增加顶点数量,从而增强屋顶几何细节表现力。
新生成的顶点通过已有的特征进行插值。
d) 网格头部(Mesh Head):
根据需求,对网格进行“降采样”或“上采样”以生成最终预测网格。
损失函数设计(Loss Design)
整个网络的训练目标是让预测的屋顶网格与真实网格在几何上尽可能接近。主要包含三类损失:
屋顶掩膜损失:
来自 MaskFormer,用于指导模型更关注屋顶区域,减少背景干扰。
网格几何相似损失(核心创新):
不再直接比较顶点距离,而是通过比较屋顶表面的高度差异来量化误差。
这种方式更加稳健,避免了因顶点数量不一致带来的不稳定性。
拓扑结构正则损失:
包括:
平滑约束:防止邻接顶点移动差异过大,避免网格扭曲。
边长限制:防止生成过长的网格边,保持结构合理性。
训练与推理流程总结
输入遥感图像 + 初始网格;
MaskFormer提取感知特征,输出屋顶mask;
MeshFormer接收mask + 感知特征,逐层预测三维网格;
损失函数共同优化结构和边界;
输出最终的高精度屋顶三维网格,纹理可直接映射。
结果与分析
RooFormer 在所有精度指标上均显著优于现有方法,重建的屋顶在几何形状、边界和高度精度方面表现更好。其生成的网格结构更加平滑且结构清晰,具备良好的泛化能力。


更多图表分析可见原文
文章授权转载:遥感与深度学习
- END -





