项目代码及数据集
1、开源代码:https://github.com/zhu-xlab/GlobalBuildingAtlas
2、数据集链接:https://mediatum.ub.tum.de/1782307
数据集概况
GlobalBuildingAtlas (GBA) 是一个公开的全球尺度建筑数据集,提供全球范围的建筑多边形、高度属性和LoD1三维模型。该数据集是首个在单体建筑层面上,以2D和3D形式提供高质量、一致且完整全球覆盖的公开数据集。数据集包含27.5亿座建筑,比现有最全面的公开建筑数据库多覆盖超过10亿座建筑。其高度产品 GBA.Height 提供了迄今最详细、最准确的全球3D建筑高度图,空间分辨率达到3×3米。这比之前的全球产品(通常约90米分辨率)精细30倍,使得在本地至全球尺度上进行高分辨率、可靠的建筑体积分析成为可能。其三维模型产品 GBA.LoD1 代表了首个完整的全球LoD1建筑模型,包含2.68亿个具有预测高度的建筑实例,高度完整性超过97%,并在不同大陆上实现了1.5米至8.9米的RMSE(均方根误差)。凭借其卓越的高度精度、全面的全球覆盖和丰富的空间细节,GlobalBuildingAtlas为全球建筑环境提供了前所未有的洞察,开辟了广泛地理空间分析的新纪元。
构建方式
GlobalBuildingAtlas 的工作流程主要分为四个部分:全球数据获取、全球建筑物多边形生成、全球建筑物高度估计和后处理(即全球 LoD1 模型生成)。
1、全球数据获取 (Global Data Acquisition):收集全球尺度的 PlanetScope Surface Reflectance (PSR) 影像,空间分辨率约为3米,包含 RGB 和 NIR 四个波段。数据获取覆盖了根据 Global Urban Footprint (GUF) 数据集定义的全球建成区。为了确保数据质量,对影像进行了云量过滤(少于10%云量),并在无云影像不足的区域补充了2018年的数据。对每个0.2°x0.2°的网格单元,使用基于 Unusable Data Masks (UDMs) 的场景优先级策略进行 PSR 影像镶嵌。
2、全球建筑物多边形生成 (Global Building Polygon Generation):
-
数据标注 (Data Curation):从全球107个预定义感兴趣区域 (RoIs) 采样 PSR 影像块,包括城市和非城市区域。训练数据来自 OSM (OpenStreetMap) 以及 Cao and Huang (2021) 提供的中国城市建筑标注,这些标注被栅格化为3米分辨率与 PSR 影像匹配。 -
建筑图提取 (Building Map Extraction):设计了一个基于 UPerNet (Xiao et al. (2018)) 编码器-解码器结构的神经网络,使用 ConvNeXt-Tiny (Liu et al. (2022)) 作为骨干网络,将输入的 PSR 影像映射为二值建筑掩膜。辅助解码器使用 FCN (Long et al. (2015)),主解码器和辅助解码器均使用交叉熵损失 (cross-entropy loss) 进行监督训练。 -
建筑图正则化 (Building Map Regularization):由于原始建筑掩膜可能存在噪声和相邻建筑合并,训练了一个建筑图正则化网络来精细化掩膜。该网络也是编码器-解码器结构,输入是带噪声的栅格化建筑标注(ˆM),输出是无噪声的栅格化建筑标注(M)。通过学习从 ˆM 预测 M,网络能够去噪并生成更规则的建筑掩膜。 -
多边形化与简化 (Building Polygonization and Simplification):将正则化后的二值建筑掩膜使用 GDAL 库 (The GDAL Development Team (2020)) 提供的轮廓跟踪算法转换为矢量多边形表示。随后,应用 Zhang et al. (2025) 中描述的多边形简化算法对多边形进行简化。 -
误检过滤 (False Positives Filtering):利用 World Cover (Zanaga et al. (2021)) 全球土地覆盖产品对生成的建筑多边形进行过滤,移除落在建成区掩膜(经过250米窗口膨胀处理)之外的多边形。
3、全球建筑物高度估计 (Global Building Height Estimation):
-
数据标注 (Data Curation):使用来自全球168个城市尺度 RoIs 的数据集训练单目高度估计模型。这些区域主要位于北美、欧洲和大洋洲,参考数据来源于政府公开的 LiDAR 点云,处理为与 PSR 影像分辨率匹配的归一化数字表面模型 (nDSM)。 -
单目高度估计 (Monocular Height Estimation):训练了一个 HTC-DC Net (Chen et al. (2023)) 模型,采用分类-回归范式 (classification-regression paradigm),从单张 PSR 影像预测高度。模型包含 EfficientNet-B5 (Tan and Le (2019)) 骨干网络、分类模块和混合回归过程。分类模块使用 Vision Transformer 编码器 (Dosovitskiy et al. (2020)) 动态确定高度分箱边缘和概率,回归过程基于分类输出精炼最终高度预测。训练使用 AdamW (Loshchilov and Hutter (2017)) 优化器和特定的训练参数。 -
不确定性量化 (Uncertainty Quantification):在推理阶段使用测试时增强 (test-time augmentation, TTA) 技术量化预测高度的不确定性。在镶嵌的 PSR 影像上使用滑动窗口进行推理,通过多次预测的方差衡量不确定性。
4、全球 LoD1 建筑模型生成 (Global LoD1 Building Model Generation):
-
质量引导的建筑物多边形融合 (Quality-guided Building Polygon Fusion):为了整合现有大型建筑多边形数据集(如 OSM, Google Open Buildings, Microsoft Building Footprints, CLSM)以及自身生成的 GBA.Polygon,提出了一种基于质量的融合策略。在每个行政边界内进行融合,选择质量最高的来源作为基础层(OSM 在大多数大洲表现最佳,Google Open Buildings 在南美和非洲表现最佳)。评估其他来源相对于基础层的召回率 (recall) 和面积增益 (area gain),选择综合指标最高的作为次要来源。最终数据集保留基础层所有建筑,并加入次要来源中未包含的建筑。 -
LoD1 建筑模型生成 (LoD1 Building Model Generation):将预测的 GBA.Height 高度图与融合后的 GBA.Polygon 建筑物多边形结合。每个建筑实例的高度通过在其多边形范围内取最大高度值来确定。该位置的方差作为相应建筑实例的高度不确定性度。
使用方法
1、支持使用标准GIS软件加载建筑多边形/LoD1模型(矢量),或栅格工具分析高度图。
2、数据处理代码在GitHub开源,数据可在非商业许可下使用,采用分块存储便于区域研究,支持全球跨国比较。
3、典型应用包括:支持SDG 11.3.1监测、城市容积率分析(结合人口)、气候变化脆弱性评估。
当前挑战
1、领域层面: 解决全球(尤其全球南方)建筑三维数据缺失、分辨率低导致的评估偏差问题。
2、构建层面: 主要挑战包括:非洲数据缺失影响模型泛化、高密度区高度低估、多源数据融合质量与几何一致性维护、单目估计对复杂形态建模局限;虽经策略缓解,区域差异仍存。
最新研究方向
1、推动高分辨率全球城市形态分析。
2、深化建筑体积、密度与人口分布关联研究。
3、强化支持联合国SDG 11目标(特别是可持续城市)的监测与评估。
4、重点为全球南方地区提供关键三维建筑数据,填补空白,并探索其在城市规划与政策制定中的应用。
论文引用
Zhu,X.X.,Chen,S.,Zhang,F.,Shi,Y.,&Wang,Y. (2025). GlobalBuildingAtlas: An Open Global and Complete Dataset of Building Polygons, Heights and LoD1 3D Models. Earth System Science Data Discussions. Preprint. https://doi.org/10.5194/essd-2025-327
文章授权转载:锐多宝
- END -




