RCFSNet：一种结合道路上下文信息与多尺度特征的道路遥感图像道路提取方法（IEEE GRSL）

极市平台

2022-12-16

↑ 点击蓝字关注极市平台

作者丨ZhigangYang@知乎

编辑丨极市平台

极市导读

本文提出一种结合道路上下文信息与全阶段特征融合的RCFSNet算法，与常见的道路提取算法相比，RCFSNet能够获取完整的路网标签，在遮挡场景中表现出色。 >>加入极市CV技术交流群，走在计算机视觉的最前沿

本次介绍的文章是太原理工大学大数据学院在2022年发表在《IEEE Geoscience and remote sensing letters》的遥感图像道路提取方法。

论文链接：https://ieeexplore.ieee.org/document/9982686

代码链接：https://github.com/CVer-Yang/RCFSNet

摘要

随着深度学习在计算机视觉任务的广泛应用，深度学习算法也应用于遥感图像道路提取任务。早期在CVPR2018: DeepGlobe Road Extraction Challenge（全球卫星图像道路提取）比赛中，DLinkNet模型以LinkNet网络作为基本框架，在网络中间部分采用不同空洞率的空洞卷积提取、融合多尺度道路上下文信息，该算法最终获得比赛的冠军。当前道路提取研究方法主要从替换主干网络、改进上下文信息提取方法、结合注意力机制等多方面对道路提取任务进行探究。然而，目前的道路提取方法仍存在生成的路网连通性差、道路边缘不明显等问题。本文提出一种结合道路上下文信息与全阶段特征融合的RCFSNet算法，与常见的道路提取算法相比，RCFSNet能够获取完整的路网标签，在遮挡场景中表现出色。

模型

本文设计了一种结合道路上下文信息与多阶段特征融合的道路图像道路提取方法，模型结构如图1所示。

A. 编码器

RCFSNet网络使用在ImageNet数据集上预先训练的ResNet34网络作为编码器。编码器首先进行卷积核大小为7×7且步长为2的卷积，预训练编码器网络模块之后为步长为2的最大池化。网络的后面部分由重复的残差块组成。残差块内部在输出输出之间设计了跳跃连接（shortcut），缓解了在深度神经网络中增加深度带来的梯度消失问题。

B.多尺度上下文信息提取模块（MSCE）

遥感图像中存在大量道路被周围物体遮挡的场景，上下文关系模块能够捕捉道路与周围物体的关系，增强模型预测道路的完整性。不同于常见的上下文信息提取模块，考虑到道路的具体形状与整体特征，我们设计了一种新颖的条带空洞卷积用于提取准确的道路上下文信息。

多尺度上下文信息提取模块由普通空洞卷积支路、水平空洞卷积、垂直空洞卷积三条支路组成，每条支路的卷积空洞率为1，2，4。在同一条支路中，采用跳跃连接融合不同感受野下的道路特征图。本模块中还设计了池化核为（1,W）与（H,1）的池化操作获取道路的整体特征。模型最终采用拼接操作融合不同支路的特征图，采用1×1卷积将特征图通道数恢复到512。本文对输入特征图与上下文信息之间采用元素相加操作进行融合，设置了可训练的参数P进行加权，能够抑制模块产生的冗余信息。

C.全阶段特征融合模块(FSFF)

不同阶段解码器的特征图包含不同的道路特征。编码器初级阶段特征图中能够提供丰富的道路结构特征，而高级阶段特征图中蕴含丰富的道路语义信息。因此有效地结合这部分特征图能够为解码器提供准确的道路特征信息。

以D3阶段为例，本文首先将特征图E1,E2,E3,E4,E5调整到与特征图E3相同分辨率大小、通道数为64的中间特征图，随后采用拼接操作对特征图进行融合。为生成更准确的道路结构特征图，我们设计了一种协同双注意力机制（CDAM）辅助全阶段特征的融合。

协同双注意力机制由协同通道注意力机制和协同空间注意力机制组成。在协同通道注意力中，融合特征图首先经过池化核大小为（1,W）与（H,1）的池化操作处理，随后采用reshape操作将特征图变形为H×320与W×320的特征图，特征图被输出通道数为1的1D卷积核学习相邻通道的依赖关系，随后采用变形操作将特征图变形为320×1×1的特征图。分别采用sigmoid函数获取特征图结合宽度、高度信息的通道权重，输入特征图结合权重生成两个通道特征加权的特征图。

在协同空间注意力机制中，首先采用通道平均池化和最大池化操作压缩通道特征信息，随后采用拼接与卷积操作融合特征图。分别采用卷积核大小为（1,W）与（H,1）的卷积操作压缩特征图的空间信息，随后采用expand操作恢复特征图尺寸到1×H×W。采用sigmoid函数获取特征图在宽度和高度维度的空间权重，输入特征图结合权重生成两个空间特征加权的特征图。

将协同双注意力机制生成的融合特征图采用拼接操作进行融合，随后采用输出通道数为128的1×1卷据核生成补充的道路特征图，其中128对应编码器特征图E3的通道数。

D.解码器

每一阶段解码器接收来自全阶段特征融合模块输出的道路特征图与上一阶段解码器输出的特征图作为输入。上一阶段的解码器采用上采样和1×1卷积操作将特征图尺寸与通道数调整到与全阶段特征融合模块输出的道路特征图一致，随后采用拼接、卷积、批归一化(BN)、修正线性单元（ReLU）操作进行特征融合。

在预测阶段，采用64个卷积核大小为3×3的卷积与上采样操作对全阶段解码器的特征图进行调整，采用相加操作进行特征图融合，随后输入到3×3卷积与sigmoid操作获得道路结果预测图。

实验分析

A.实验数据

本文在DeepGlobal和Massachusetts数据集进行实验。该数据集包含6 226对1 024 × 1 024像素的RGB卫星遥感图像和标签，每幅图像的像素分辨率为0.5m/像素。图像由Digital Globe的卫星收集，为泰国、印度和印度尼西亚3个国家的城市、乡村等多种场景。在实验中将6 226幅图像分成5 500幅训练集数据和726幅测试集数据。马萨诸塞道路数据集（Masaschusetts road dataset）包括1171对1500×1500像素的RGB航拍图像。图像包含城市、郊区和农村等多种场景区域。训练前将数据集进行预处理，裁剪为1024×1024像素点的图像。实验数据包括1108对训练图像作为训练集与49对图像作为测试集。

B.损失函数与评价指标

本文选用二元交叉熵与Dice系数组合作为损失函数。选用准确率、召回率、交并比、F1-score指标评价神经网络模型。样本可分为四种类型:真阳性(TP)、假阳性(FP)、真阴性(TN)和假阴性(FN)。计算公式如下所示：

C.性能对比

本文为了验证模型的性能，文章在两个公开数据集上进行实验。将提出的模型与U-Net, DLinkNet, NLinkNet,DeeplabV3+, MACU-Net, DBRANet等模型进行了性能对比。本方法在DeepGlobal与Massachusettss数据集均获得最好的IoU与F1-score,证明本方法的有效性与鲁棒性。

图6 不同模型的P-R曲线与F1-Thresholds曲线，第一行为模型在DeepGlobal道路数据集的表现，第二行为模型在Massachusetts数据集的表现。

D.预测结果分析

生成的道路标签显示，本方法不仅能提取完整的路网标签，而且对道路遮挡场景具有一定的推理能力，其中图像中红色区域代表背景像素点预测为道路的情况，蓝色像素点代表模型未识别到的道路像素点。第一行图像黄色框标记了展示了道路被绿植遮挡的情形，第三行图像黄色框标记道路被建筑物遮挡的情况，RCFSNet方法均具有良好的表现。

E.消融实验

本文设计了消融实验证明所提模块的有效性。删除MSCE模块后模型的召回率明显下降，证明道路上下文关系能够辅助模型提取到完整的道路标签。删除FSFF模块后模型的精确率明显下降，证明生成的道路结构特征能够辅助模型生成更准确的道路标签。MSCE模块与FSFF模块的结合在两个数据集上均获得最佳的F1-score与IoU指标，证明两种模块组合的有效性。

本文也设计了实验证明协同双注意力机制的有效性。与将CDAM替换为CBAM、SE、CA Attention等模块的实验结果相比，结合CDAM的模型能够取得最好的F1-score与IoU指标。

结论

本文提出一种结合道路上下文信息与全阶段特征融合的RCFSNet网络用于遥感图像道路提取任务。设计的多尺度上下文信息模块能够获取准确的道路远距离依赖关系。设计的全阶段特征融合模块能够为解码器提供准确的道路特征信息，设计的协同双注意力机制能够有效强化道路的特征表示。方法在公开数据集上进行了实验，模型能够提取完整的道路，同时对遮挡场景具有一定的推理能力。