GIS前沿

2024-05-19

导读：摘要：从无人机影像中自动提取建筑物对城乡规划和管理至关重要，然而，在复杂背景干扰和建筑物外观变化很大的情况下给

摘要：从无人机影像中自动提取建筑物对城乡规划和管理至关重要，然而，在复杂背景干扰和建筑物外观变化很大的情况下给实例提取带来挑战。因此，提出一种改进的Mask区域卷积神经网络（R-CNN）方法用于无人机影像的建筑物自动实例提取。改进方法以ResNet-101作为特征提取网络，在特征融合网络方面，通过添加自底向上的路径增强整个特征层次的定位能力，同时在特征融合中加入空洞空间金字塔池化模块（ASPP）来提高多尺度能力与改善模型性能。在自制建筑物数据集上的综合实验结果表明，与原始的Mask R-CNN方法相比，改进方法的mAP值提高了2.6%，能够很好地实现无人机影像建筑物实例提取。

引言

近年来，随着无人机技术的快速发展，无人机遥感数据在相关领域得到大规模应用，从无人机影像中大规模、高精度地提取建筑物信息在城乡规划、人口估计、灾害响应、变化监测等方面具有极其重要的作用。因此，如何准确高效地从无人机影像中自动化提取建筑物是遥感图像处理领域的一项重要研究课题。

传统的建筑物提取方法利用影像光谱、纹理、几何、阴影、高度等特征，从遥感影像中提取建筑物。例如，林雨准等[1]综合利用光谱、形状、纹理等特征，结合多尺度融合方法实现建筑物的分级提取并取得较高精度。方鑫等[2]提出一种针对密集城区的建筑物提取流程，首先在高分影像初步提取阴影和建筑物，然后利用二者空间位置关系建立筛选条件，最后通过图割算法来完善建筑物轮廓。朱芳芳等[3]通过将亮度、归一化植被指数（normalized difference vegetation index,NDVI）等特征分量进行波段重组，可以有效消除裸土、硬化道路的影响并准确提取建筑物。此外，诸如支持向量机[4](support vector machine,SVM）随机森林[5](ran-dom forest,RF）、马尔科夫随机场[6](Markov ran-dom field,MRF）、Boosting[7]等一些优秀的机器学习方法也广泛应用于遥感影像的建筑物提取。然而，传统的建筑物提取方法一定程度上使用了机器学习算法，通过人工筛选特征进行检测和分割，但对于处理复杂的环境以及海量数据存在很大局限性，精度上限较低、适用性差，不能实现全自动提取的要求。

基于此，许多学者使用语义分割模型来提取遥感图像中的建筑物，例如U-Net[8]、DeepLabv3+[9]、PSPNet[10]、SegNet[11]等，但语义分割仅可以判断每个像素的语义类别，相较于可以精细化区分各个建筑物的位置、类别、轮廓等信息的实例分割更具有实际应用价值。在现有的实例分割方法中，Mask区域卷积神经网络（regionbased convolutional neural networks,R-CNN)[12]被证明是一个十分适用于遥感影像建筑物提取的深度学习模型，大量学者正将其应用于建筑物的提取识别，例如，瑚敏君等[13]在Mask R-CNN原特征提取各层后再增加一层卷积以及在掩膜预测部分增加一个分支，以降低上采样造成的混叠效应、提高淹没预测效果，能够准确预测各建筑物且没有粘连现象。李森森等[14]在特征提取网络的基础上利用自底向上、自顶向下的分层跳连融合以及设计自适应感兴趣区域，显著提高遥感图像多目标的提取准确率。何代毅等[15]基于Mask R-CNN网络，通过添加路径聚合网络和特征增强功能，利用过监督和迁移学习实现建筑物的自动精确分割和提取。林娜等[16]通过在FPN层后添加更多横向连接与自底向上、自顶向下的路径，并用Soft-NMS替换原NMS算法，在自制建筑物数据集上实验漏检更少、边界框更贴合、掩膜效果更好。

综上所述，本文以Mask R-CNN作为基础网络模型，提出一种改进的无人机影像建筑物自动提取的实例分割方法，通过在FPN后添加一层自底向上的侧链接，并在金字塔融合中加入空洞空间金字塔池化模块（atrous spatial pyramid pooling,ASPP）来提高模型的多尺度性能。在自制的建筑物数据集上进行实验，与原Mask R-CNN方法相比，改进方法具有更好的实例提取效果。

1 本文算法

1.1 Mask R-CNN网络结构

本文采用的提取方法是由He等[12]提出的一种实例分割Mask R-CNN算法，该网络框架基于Faster R-CNN[17]和全卷积网络（fully convolutional network,FCN)[18]，作者在Faster R-CNN的基础上增加了一个语义分割掩码预测分支，从而能够准确检测图像中的目标类和位置信息，实现了更精细的对象定位和提取。Mask R-CNN算法主要由骨干网络（backbone）、区域建议网络（region proposal network,RPN）、感兴趣对齐层（roi align）和三个输出分支（three branches）组成，网络模型结构如图1所示。

图1 Mask R-CNN网络结构

Mask R-CNN是一个两阶段算法，在第一阶段，通过将原始影像输入到ResNet残差网络中进行特征提取，特征金字塔网络（feature pyramid network,FPN）进行特征融合生成多尺度特征图，然后使用区域建议网络扫描特征图并提取可能存在目标的感兴趣区域（region of interest,ROI）；在第二阶段，将RPN输出的ROI分配到相应特征图的相关区域，并通过ROI Align生成固定大小的特征图，然后，对于每个ROI进行预测类别并细化边界框和预测分割掩码。

1.2 Mask R-CNN改进

Mask R-CNN具有很高的实例分割能力，但直接用于自制的数据集建筑物提取会存在提取精度不高。Mask R-CNN在特征融合网络中时只有一个自顶向下的路径传播侧链接层，在使用FPN层进行特征融合时需经过多层网络且没有完全考虑不同层间语义信息的差异，这样会使获取初始影像特征的能力减弱，导致主特征图的信息丢失，会降低多尺度特征融合的能力，没有充分利用各个尺度的特征信息，可能会丢失剩余层的有用信息，导致提取精度降低。针对上述问题，本文结合Liu等[19]提出的改进FPN和Chen等[20]提出的ASPP，提出了一种改进的Mask R-CNN方法，增强整个特征层次的定位能力，提高特征融合网络的多尺度能力，改善融合阶段的模型性能，提高对建筑物实例特征提取能力。

本文通过在原特征金字塔层中加入一个新的自底向上的特征融合分支，缩短主要特征层的信息传递路径，充分利用底层特征的精确位置信息强化特征金字塔。如图2所示，C2～C5是ResNet的特征提取模块，P2～P5和N2～N5是FPN的特征映射层。实线表示原FPN算法中主特征图通过自顶向下的路径传播经过多层网会导致主特征图信息丢失。虚线表示自底向上的特征融合，通过将Ni与浅层的特征图Pi+1融合生成新的特征图Ni+1，使底层特征经原FPN层融合到P2，在经自底向上的传播路径融合到顶层N5，自底向上扩充路径的精确定位信息强化整个特征结构，缩短低层网络和顶层网络特征之间的信息路径。

图2 改进FPN层

ASPP模块可以提高模型获取复杂特征的能力，增强对多尺度物体的检测提取能力，ASPP模块如图3所示。本文在特征融合中加入ASPP，通过多级采样率的空洞卷积并行采样扩大感受野，增强了网络获取多尺度特征上下文信息，提高提取抽象信息的能力。因此，ASPP模块可以增强模型的多尺度能力以及改善融合阶段的模型性能。

图3 空洞空间金字塔池化模块

2 实验与分析

2.1 数据实验

本文实验采用自制的建筑物数据集，通过无人机采集北京周边村落的影像数据，对影像进行调整裁剪至大小为1 024像素×1 024像素，研究的影像数据基于4∶1∶2的比例将数据样本划分为训练集、验证集和测试集。使用labelme软件对数据进行标注，每张影像生成相对应的.json文件，我们需要将其转换成网络需要的COCO格式的数据进行实验。本实验基于Windows10操作系统，由Python编程语言及PyTorch深度学习框架，并在NVIDIA GeForce RTX 3060 12 GB的硬件环境下进行模型的训练与测试。

2.2 评价指标

为定量评估本文方法的性能通过采用平均精度（mean average precision,mAP）作为评价指标。mAP表示所有类别AP的均值，AP每个类别由精确度P(precision）为纵坐标，召回率R(recall）为横坐标，绘制P-R曲线，曲线下方围成的面积为AP。计算公式为

式中，k表示所有类别数，P和R的计算公式为

式中，TP(true positive）是指原本为正样本，预测结果也为正的数目；TN(true negative）是指原本为负样本，预测结果为正的数目；FP(false positive）是指原本为正样本，预测结果为负的数目；FN(false negative）是指原本为负样本，预测结果为负的数目。

2.3 结果分析

为了验证本文改进方法的有效性，分别将Mask R-CNN方法和改进方法在自制的建筑物数据集上进行实验并对定性评价结果进行分析，图4展示了一些视觉对比的结果，其中标记的方框代表提取失败的情况（表示漏检建筑物与误检建筑物）。从中我们可以看到Mask R-CNN方法在复杂背景干扰与外观变化很大情况下可能会漏检一些建筑物（例如，部分被树木遮挡的建筑物），也会检测到一些假建筑物（例如，水泥地面）。这是因为Mask R-CNN中使用FPN在自顶向下的特征融合中丢失了主特征图信息与多尺度信息，从而可能包含大量噪声和不必要的干扰信息。

我们改进的方法在这些情况下取得了更好的性能，有效降低建筑物的漏检与误检。这是因为构建自底向上的特征融合可以减少主要特征层的传递路径，将更详细的信息传递给每个更高级别的特征映射，增强整个特征层次的定位能力，在特征融合中加入ASPP模块，提高了模型提取抽象信息能力与多尺度能力，改善各分支融合阶段的模型性能，以此来提高建筑物的检测提取能力。

为定量分析本文改进方法的建筑物提取精度，表1列出了在自制建筑物数据集上的提取精度，从中我们可以看出，与Mask R-CNN相比，我们改进方法的mAPIoU=50值提高了2.6%。本文方法在数据集上取得了更好的性能，可以准确提取每个建筑物实例，证明了我们改进的方法在建筑物实例提取方面的优越性。

图4 实验结果对比

表1 精度对比

3 结束语

本文提出了一种改进的Mask R-CNN方法用于建筑物实例提取，在自制的建筑物数据集上进行的综合实验表明，改进方法在复杂背景干扰和建筑外观变化很大的情况下可以很好地提取建筑物实例。与Mask R-CNN方法相比改进方法在平均精度上有一定的提高，取得了更好地结果能够有效提取建筑物实例。尽管改进方法在建筑物实例提取方面取得了很好的效果，但仍存在一些不足之处，在复杂背景干扰与树木遮挡下的建筑物，也有漏检或误检的情况。在今后的工作中，上述问题可作为今后研究的重点。