大数跨境
0
0

文献推荐|使用知识引导的深度学习方法对石窟场景进行点云语义分割

文献推荐|使用知识引导的深度学习方法对石窟场景进行点云语义分割 遗产数字化与虚拟修复课题组
2024-09-09
1

1

引用格式

Yang, S., Hou, M. and Li, S. (2024) ‘Point cloud semantic segmentation of grotto scenes using the knowledge-guided deep learning method’, International Journal of Digital Earth, 17(1).

文章内容概述

本文提出了一种基于知识引导的深度学习方法,用于石窟场景的点云语义分割。文章首先指出了当前在石窟场景中进行点云语义分割的研究非常有限,并且现有神经架构在石窟场景中的表现尚不明确。为了填补这一空白,该研究总结了石窟场景的特点,包括点云密度、颜色特性、局部几何特征、全局空间分布模式等,作为指导深度学习模型设计的知识。基于此知识,构建了石窟场景的点云基准数据集,并设计了一个名为GSS-Net的神经网络,旨在提高石窟场景点云语义分割的准确性和可解释性。GSS-Net集成了多个模块,包括邻域选择模块、点云属性扩展模块和局部空间混合编码模块,提高该场景下点云语义分割的准确性和可解释性。研究还通过一系列消融实验验证了每个模块的有效性,并对分割结果进行了后处理以进一步改进。通过将提出的方法与四种基于深度学习的经典方法在五个不同的石窟场景中进行比较,定量评估了提出的方法性能,结果表明,该方法具有显著的优势。


内容介绍

背景

近年来,基于深度学习的点云语义分割在3D城市场景处理中取得了显著进展,但在石窟场景中的应用却非常有限。石窟场景的点云数据具有不均匀的密度、复杂的几何形状和独特的空间分布模式,这些特点使得现有的点云语义分割方法难以直接应用。因此,本文旨在探索如何结合石窟场景的知识来指导深度神经网络的设计,从而提升石窟场景点云语义分割的性能。



研究方法

图1 使用知识引导的深度学习方法进行语义分割的总体研究方法。




如上图所示,知识引导(grotto scene knowledge,GSK)总共分为六个部分:应用于石窟场景的点云密度知识,应用于石窟场景的视觉色彩知识,应用于石窟场景的局部几何特征知识,应用于石窟场景的全局空间分布知识,石窟构件大小的阈值知识,石窟组件知识。不同的部分对应着指导方法中不同的内容,如下表所示。


表1 模块、石窟场景知识与消融研究之间的对应关系。




石窟场景知识(GSK)总结如下:

GSK 1:石窟场景的点云密度知识
在点云密度不均匀的场景中,选择包含来自多个方向信息的最近邻点至关重要。这种方法能更好地表示局部几何特征。点云中不同组件比例的变化可能导致那些样本量较小的类别(如场景中的石碑、栏杆)学习不足。

GSK 2:石窟场景的视觉颜色知识
石窟场景中不同组件之间的颜色变化非常明显。例如,植被通常呈现绿色,而地面通常是灰色(由水泥等材料构成)。崖壁的颜色则取决于岩石的类型。例如,在大足石刻中,主要由红色砂岩构成的崖壁呈现出红色。石窟组件之间这些明显的颜色差异有助于区分不同的类别。

GSK 3: 石窟场景的局部几何特征知识

石窟场景中的不同组件具有独特的局部几何形状。例如,地面和壁龛的屋檐相对平坦且水平朝向,而崖壁则几乎垂直,局部曲率变化很小。佛像的几何形状复杂,曲率变化显著。此外,佛像的大小和方向也各不相同。因此,对于佛像的描述,旋转不变性和尺度不变性的局部几何特征描述至关重要。

GSK 4: 石窟场景的全局空间分布知识
石窟场景中组件的类型与其在场景中的相对高度密切相关。存在一个明显的垂直分层,组件从最低到最高依次排列,即地面、崖壁基座、基座、崖壁、佛像、壁龛屋檐,以及山体和植被。因此,相对高度可以有效地作为识别和分类全局特征的约束条件。

GSK 5: 石窟组件尺寸阈值知识
石窟中各组件的实际尺寸范围和分割结果的尺寸可用于识别错误分割的区域。因此,石窟组件尺寸的阈值可用于改进结果。

GSK 6: 石窟组件知识
准确识别石窟场景中的语义类别(即标注类别)需要文化遗产领域的专业知识,这是构建点云基准数据集的基础。




经由以上的知识模块,针对应用场景采用并设计了如下几个模块和方法应用于构建深度学习网络:

K-R方法

如GSK 1所述,KNN方法可能不能确保在分布不均匀的点云中包含来自不同方向的相邻点,这可能导致局部几何特征的不精确表示。因此我们提出了K-R随机邻域采样方法(K-R方法)来在点云中选择最近邻。K-R方法首先通过增加K来扩展邻域,以包含更大范围的点,然后通过随机抽样来选择K个点。

图2 K-R方法


局部空间混合编码(LSHE)模块

在GSK3的指导下,我们采用了笛卡尔坐标下的欧氏距离和微分坐标下的拉普拉斯(拉普拉斯算子)(Sorkine2005),构造了局部空间混合编码(LSHE)模块。该模块的设计细节如图3所示。拉普拉斯算子被定义为梯度(∇f)的散度(∇·f)。该算子具有旋转不变性和尺度不变性,使其能够有效地描述一个点的函数值与其邻域的平均值之间的差值。它可以用简单、高效、准确的方法近似表示基于最近邻的局部几何形状。

图3 局部空间特征编码模块


并行注意力模块

考虑到在PCAE模块中扩展了新的标量场,存在着点云属性信息与空间编码信息的过早混合导致显著特征丢失的风险。如图5所示,本研究开发了一个并行注意池(PAP)模块,它计算空间信息和扩展属性的不同注意得分。随后,通过加权求和的方法,将这两组特征进行连接和组合,并使用共享的MLP实现特征聚合。

图4 平行注意力机制模块结构图


局部全局特征聚合模块

特征聚合集成了广泛的局部和全局上下文信息,从而以一组全面的特征丰富了每个点(Xie et al. 2024;周、黄和方2021)。根据GSK4,通过将局部点集的水平投影密度(r)与其相对高程(h)相乘,计算全局模式,得到全局特征。通过将LSHE和PAP模块堆叠两次,纳入了跨多个空间尺度的局部特征。全局和局部特征的融合形成了局部-全局特征聚合(LGFA)模块。

图5 局部-全局特征聚合(LGFA)模块


GSS-Net网络

本文所研究并使用的GSS-Net网络结构采用具有跳过连接的编码器-解码器架构。该网络的输入是由N个点组成的点云数据。具有d维(N,d)的每个点都由空间坐标、颜色信息和扩展属性组成。构造点云数据集时,按照既有的知识引导,使用CloudCompare 软件手动分割并分配语义标签到五个石窟场景的点云,以便于定量检验研究所提出的方法的性能。经过GSS-Net处理后,点云根据语义标签分为不同的语义类别。在本研究中,使用了三个定量指标来评估实验结果,包括整体准确率(OA)、每个类别的交并比(IoU)和平均交并比(mIoU)。

图6 GSS-Net 的体系结构

图7 知识约束改进分割结果的过程


实验内容

本文设计了两组实验来验证所提方法的有效性。总共选择了四种经典的基于点的点云语义分割深度学习模型作为基线,与我们基于石窟场景基准数据集提出的性能验证方法进行比较。图8显示了详细的实验设计,包括不同实验中使用的石窟场景数据集,用于训练、验证和测试的石窟场景的划分,以及每种实验配置的比较实验。




图8 实验设计。


实验结果与分析

实验一


GSS-Net在石窟场景中表现优异:

场景1:OA达95%,mIoU为90.23%。知识约束后,OA增1.59%,mIoU升0.7%(表2)。

场景2:面对复杂佛造像,mIoU为86.98%。改进后,OA与mIoU分别增1.2%与0.76%(表3)。

场景3:佛像与屋檐mIoU较低,因复杂几何形状导致误判。

场景4:规则栏杆mIoU高达95.09%。知识约束纠正主佛像分类,OA增0.96%,mIoU增0.6%(表5)。

场景5:GSS-Net较四基线方法在OA与mIoU上分别提升0.18%与1.65%,多类别获最高IoU分数。知识约束后,OA达93.69%,mIoU达85.41%(图8,表6)。

表2 石窟场景 1 中不同方法的 OA、mIoU 和 IoU 的结果。

图9 石窟场景 1 中分割的可视化结果


表3 石窟场景 2 中不同方法的 OA、mIoU 和 IoU 结果。

图10 石窟场景 2 中分割的可视化结果


表4 石窟场景 3 中不同方法的 OA、mIoU 和 IoU 结果。

图11 石窟场景 3 中分割的可视化结果


表5 石窟场景 4 中不同方法的 OA、mIoU 和 IoU 结果。

图12 石窟场景 4 中分割的可视化结果

图13 石窟场景 5中分割的可视化结果

实验二


在实验 2 中,将文中提出的方法与四种基线方法进行比较,说明提出的方法取得了令人信服的结果,表6显示了每项消融研究的详细信息,并显示了与 GSS-Net 的完整实施相比,所有调整后的网络的 mIoU 分数。

表6用于整体框架中不同模块消融研究的 mIoU。

表7 四次消融实验。


表8 消融后LGFA的mIoU评分。

conclusion

结论

本研究提出基于知识引导的GSS-NET模型,融合点云密度、色彩、几何特征、空间分布、组件尺寸及知识,实现石窟场景点云高效语义分割。在自建的点云基准数据集上与四个深度学习模型的比较实验证明了我们提出的方法的先进性能。知识约束进一步改进了细分结果。消融研究显示知识指导的有效性,模块设计提升显著。本研究提出的 GSS-Net 采用 Pointwise MLP 作为基本单位。在提出的模型中,空间编码层、池化层和特征聚合层作为子模块,可以用于其他基于 MLP 的方法。未来目标是扩展石窟场景的基准数据集,以评估这种方法在更广泛的石窟场景中的泛化性。

关注我们

微信号|relics-conservation

课题组|遗产数字化与虚拟修复



【声明】内容源于网络
0
0
遗产数字化与虚拟修复课题组
针对文化遗产研究正面临着信息化时代背景下的留存、修复、重建与社会化应用等一系列重大挑战,本团队率先开展大型复杂文物的数字化保护技术研究,研制成套的文物空间信息提取、虚拟修复、数据管理及展示等工程化应用系统。欢迎意向相投之人的倾情加入。
内容 195
粉丝 0
遗产数字化与虚拟修复课题组 针对文化遗产研究正面临着信息化时代背景下的留存、修复、重建与社会化应用等一系列重大挑战,本团队率先开展大型复杂文物的数字化保护技术研究,研制成套的文物空间信息提取、虚拟修复、数据管理及展示等工程化应用系统。欢迎意向相投之人的倾情加入。
总阅读37
粉丝0
内容195