全球27.5亿个的建筑物数据集(含多边形、高度和建筑模型)- 大数跨境

首页

全球27.5亿个的建筑物数据集(含多边形、高度和建筑模型)

GIS前沿

2025-07-25

导读：城市建设日新月异的今天，快速构建城市三维模型依旧是行业的一个痛点，对于大面积的航测来说，如何快速的采集完成外业

项目代码及数据集

1、开源代码：https://github.com/zhu-xlab/GlobalBuildingAtlas

2、数据集链接：https://mediatum.ub.tum.de/1782307

数据集概况

GlobalBuildingAtlas (GBA) 是一个公开的全球尺度建筑数据集，提供全球范围的建筑多边形、高度属性和LoD1三维模型。该数据集是首个在单体建筑层面上，以2D和3D形式提供高质量、一致且完整全球覆盖的公开数据集。数据集包含27.5亿座建筑，比现有最全面的公开建筑数据库多覆盖超过10亿座建筑。其高度产品 GBA.Height 提供了迄今最详细、最准确的全球3D建筑高度图，空间分辨率达到3×3米。这比之前的全球产品（通常约90米分辨率）精细30倍，使得在本地至全球尺度上进行高分辨率、可靠的建筑体积分析成为可能。其三维模型产品 GBA.LoD1 代表了首个完整的全球LoD1建筑模型，包含2.68亿个具有预测高度的建筑实例，高度完整性超过97%，并在不同大陆上实现了1.5米至8.9米的RMSE（均方根误差）。凭借其卓越的高度精度、全面的全球覆盖和丰富的空间细节，GlobalBuildingAtlas为全球建筑环境提供了前所未有的洞察，开辟了广泛地理空间分析的新纪元。

构建方式

GlobalBuildingAtlas 的工作流程主要分为四个部分：全球数据获取、全球建筑物多边形生成、全球建筑物高度估计和后处理（即全球 LoD1 模型生成）。

1、全球数据获取 (Global Data Acquisition)：收集全球尺度的 PlanetScope Surface Reflectance (PSR) 影像，空间分辨率约为3米，包含 RGB 和 NIR 四个波段。数据获取覆盖了根据 Global Urban Footprint (GUF) 数据集定义的全球建成区。为了确保数据质量，对影像进行了云量过滤（少于10%云量），并在无云影像不足的区域补充了2018年的数据。对每个0.2°x0.2°的网格单元，使用基于 Unusable Data Masks (UDMs) 的场景优先级策略进行 PSR 影像镶嵌。

2、全球建筑物多边形生成 (Global Building Polygon Generation)：

数据标注 (Data Curation)：从全球107个预定义感兴趣区域 (RoIs) 采样 PSR 影像块，包括城市和非城市区域。训练数据来自 OSM (OpenStreetMap) 以及 Cao and Huang (2021) 提供的中国城市建筑标注，这些标注被栅格化为3米分辨率与 PSR 影像匹配。
建筑图提取 (Building Map Extraction)：设计了一个基于 UPerNet (Xiao et al. (2018)) 编码器-解码器结构的神经网络，使用 ConvNeXt-Tiny (Liu et al. (2022)) 作为骨干网络，将输入的 PSR 影像映射为二值建筑掩膜。辅助解码器使用 FCN (Long et al. (2015))，主解码器和辅助解码器均使用交叉熵损失 (cross-entropy loss) 进行监督训练。
建筑图正则化 (Building Map Regularization)：由于原始建筑掩膜可能存在噪声和相邻建筑合并，训练了一个建筑图正则化网络来精细化掩膜。该网络也是编码器-解码器结构，输入是带噪声的栅格化建筑标注（ˆM），输出是无噪声的栅格化建筑标注（M）。通过学习从 ˆM 预测 M，网络能够去噪并生成更规则的建筑掩膜。
多边形化与简化 (Building Polygonization and Simplification)：将正则化后的二值建筑掩膜使用 GDAL 库 (The GDAL Development Team (2020)) 提供的轮廓跟踪算法转换为矢量多边形表示。随后，应用 Zhang et al. (2025) 中描述的多边形简化算法对多边形进行简化。
误检过滤 (False Positives Filtering)：利用 World Cover (Zanaga et al. (2021)) 全球土地覆盖产品对生成的建筑多边形进行过滤，移除落在建成区掩膜（经过250米窗口膨胀处理）之外的多边形。

3、全球建筑物高度估计 (Global Building Height Estimation)：

数据标注 (Data Curation)：使用来自全球168个城市尺度 RoIs 的数据集训练单目高度估计模型。这些区域主要位于北美、欧洲和大洋洲，参考数据来源于政府公开的 LiDAR 点云，处理为与 PSR 影像分辨率匹配的归一化数字表面模型 (nDSM)。
单目高度估计 (Monocular Height Estimation)：训练了一个 HTC-DC Net (Chen et al. (2023)) 模型，采用分类-回归范式 (classification-regression paradigm)，从单张 PSR 影像预测高度。模型包含 EfficientNet-B5 (Tan and Le (2019)) 骨干网络、分类模块和混合回归过程。分类模块使用 Vision Transformer 编码器 (Dosovitskiy et al. (2020)) 动态确定高度分箱边缘和概率，回归过程基于分类输出精炼最终高度预测。训练使用 AdamW (Loshchilov and Hutter (2017)) 优化器和特定的训练参数。
不确定性量化 (Uncertainty Quantification)：在推理阶段使用测试时增强 (test-time augmentation, TTA) 技术量化预测高度的不确定性。在镶嵌的 PSR 影像上使用滑动窗口进行推理，通过多次预测的方差衡量不确定性。

4、全球 LoD1 建筑模型生成 (Global LoD1 Building Model Generation)：

质量引导的建筑物多边形融合 (Quality-guided Building Polygon Fusion)：为了整合现有大型建筑多边形数据集（如 OSM, Google Open Buildings, Microsoft Building Footprints, CLSM）以及自身生成的 GBA.Polygon，提出了一种基于质量的融合策略。在每个行政边界内进行融合，选择质量最高的来源作为基础层（OSM 在大多数大洲表现最佳，Google Open Buildings 在南美和非洲表现最佳）。评估其他来源相对于基础层的召回率 (recall) 和面积增益 (area gain)，选择综合指标最高的作为次要来源。最终数据集保留基础层所有建筑，并加入次要来源中未包含的建筑。
LoD1 建筑模型生成 (LoD1 Building Model Generation)：将预测的 GBA.Height 高度图与融合后的 GBA.Polygon 建筑物多边形结合。每个建筑实例的高度通过在其多边形范围内取最大高度值来确定。该位置的方差作为相应建筑实例的高度不确定性度。

使用方法

1、支持使用标准GIS软件加载建筑多边形/LoD1模型（矢量），或栅格工具分析高度图。

2、数据处理代码在GitHub开源，数据可在非商业许可下使用，采用分块存储便于区域研究，支持全球跨国比较。

3、典型应用包括：支持SDG 11.3.1监测、城市容积率分析（结合人口）、气候变化脆弱性评估。

当前挑战

1、领域层面： 解决全球（尤其全球南方）建筑三维数据缺失、分辨率低导致的评估偏差问题。

2、构建层面： 主要挑战包括：非洲数据缺失影响模型泛化、高密度区高度低估、多源数据融合质量与几何一致性维护、单目估计对复杂形态建模局限；虽经策略缓解，区域差异仍存。

论文引用

Zhu,X.X.,Chen,S.,Zhang,F.,Shi,Y.,&Wang,Y. (2025). GlobalBuildingAtlas: An Open Global and Complete Dataset of Building Polygons, Heights and LoD1 3D Models. Earth System Science Data Discussions. Preprint. https://doi.org/10.5194/essd-2025-327

文章授权转载：锐多宝