大数跨境
0
0

【论文推荐】基于深度学习的海底线缆大规模快速普查

【论文推荐】基于深度学习的海底线缆大规模快速普查 智慧海洋公众交流平台
2026-01-04
0
导读:基于深度学习的海底线缆大规模快速普查

本文选自期刊《地球物理学报》2025年第12期

作者:毕钲发,刘杨,伍新明,吴丽丽

来源:基于深度学习的海底线缆大规模快速普查[J].地球物理学报,2025,68(12):4881-4894.


摘要

摘要:探明海底线缆布设情况对保障我国海洋开发和维护国防安全具有重要意义,声学方法是当前探测海底线缆的主要技术手段,但海量的声纳医像数据却面临人工处理耗时长和解译质量难以保证等难题,本文提出一种基于卷积神经网络的线缆目标自动检测方法,实现对大量声纳图像端到端的快速处理和糟确解译,该方法以编码器和解码器组成的U型架构为基础,利用残差学习模块和跳连机制以系统地聚合多尺度特征模式,并根据不同的特征动态生成素引函数以引导不同尺度层级间的重采样操作和信息融合,从而精准目快速地识别输入图像中所有线统目标体,针对训练样本有限的问题,本文提出一种数据仿真方法,可自动生成大星通真的声纳图像及其对应的线缆标注,利用多种量化评价指标详细对比了该网络和目前主流图像分制网络的件能表现,结果表明,本文方法在合成教据测试和实际数据应用中均取得良好的效果,能够有效地解决声纳图像中线统目标的检测问题.



一、前言


在军事对抗领域,国防建设需要对领海海域情况进行全方位掌握,迫切需要发展一种高效可行的海底线缆探测方法来对我国海域内可疑线状目标进行大规模快速普查,以保证我国海域的国防安全,在民用领域,海缆系统是海洋技术产业中最为复杂的大型工程,也是海洋工程中信息与能源传输的关键角色,海缆系统运行过程中往往需要对海缆进行长期的实时监测和维护以保障其安全稳定的运行,要求海缆监测方法具有快速、准确和稳定等特点,要求监测方法不仅能够快速准确地获得目标海缆的位置和尺寸等相关信息,还能长时间稳定地运行(粪大雄等,2021).目前,全球海底电缆总长已达百万千米量级,在我国海域也有数万千米,在海缆埋设过程中,由于人为、技术等原因无法保证海缆被埋设于预定深度,需要对海缆的具体位置进行探测以保证铺设的海缆满足要求,海缆铺设完毕后,随着时间的推移以及洋流的作用,海缆的表层会被冲刷而祼露于海底,或在海底县空,局部洋流及经常性的海底作业、海上活动或抛锚等会给海织带来严重危害,需要对海进行探测以预防海然的损坏,从而降低维护成本,提高经济效益,此外,当损害已经发生,更需要对海织进行快速定位以及时维修.因此,海洋线缆探测在军民领域都有着重要的现实意义.

声学探测是海洋线缆目标探测中非常重要的一种手段,包括浅地层剖面仪,侧扫声纳、多波束声纳、三维成像声纳、合成孔径声纳等,均可以实现声学成像,并提供较为直观的海底地形形态,目前对声纳图像的处理主要依赖于人工解译,人工解译的难点在于数据量太大,同时也受图像判读员的业务水平和工作状态影响,如合成孔径声纳,每天的扫测数据量即为10 GB的量级,人工解译耗时长,且判读的准确性难以保证,为此,研究针对声纳图像的高精度自动解译技术势在必行.

传统的声纳图像检测方法,主要利用目标物前最与背景的特征不同进行目标检测,通过较为简单的数学建模及其算法实现来提取目标的关键特征,并根据关键特征来实现对目标的检测,这些方法通常对数据质量、环境和噪声等因素的干扰较为敏感,较难适应于不同特征的线缆目标检测,且计算效率较低导致对海底大规模扫描时面临计算成本昂贵,与光学图像相比,受水声信道不均匀及边界不规则等影响,声纳图像通常具有斑点噪声明显、边缘模糊、亮度不均匀和分辨率低等特点,此外,由于海洋复杂环境和沉积物对声学成像的影响,声纳图像中的海底线缆有时与海床区别不明显或者被掩埋,这给传统声纳图像检测方法在实际场景中的应用带来困难,前人通过改进霍夫变换方法(lsaacs andGoroshin,2010;Bagnitsky et al,2011),将线缆的方向和位置在连续的侧扫声纳图像中叠加,提高线绺目标检测精度,前人提出基于区域生长算法的海然目标检测技术(欧阳犬平等,2021),并利用基于Otsu的霍夫直线检测解决传统方法对像素灰度值不敏感的问题(Zhang et al,2021).为降低噪声的影响,也有学者事先定义几种线缆目标的分类标准,并采用模糊识别算法得到各个检测结果的归一化特征数据矩阵,之后将模糊聚类分析和模糊贴近度法相结合,实现对海底线缆目标的有效聚类(刘洪波等,2009),.除此之外,随着机器学习方法的不断发展,多层感知器和基于纹理信息的支持向量机(Support VectorMachine.SVM)(Suvkenset al,1999;Suthaharan,2016)也被应用于海底线缆的检测任务中,或者利用神经网络强大的非线性特征表达能力,对铺设在低光照环境且处于不同状态的海底线缆进行检测(Stamoulakatos et al,2020),虽然这些方法均取得一定的效果,但由于海底环境和采集条件的复杂性及声纳图像本身的特殊性,检测结果易受噪声和不相关特征的影响,因而,有必要使用诸如形态学滤波和边缘检测等后处理技术对结果进一步校正和增强,然而这也使得该类方法具有一定计算复杂度,面临着效率和精度的平衡问题.

近年来,深度卷积神经网络在计算机视觉和图像处理领域取得巨大成功,尤其在图像分类(Zeiler and Fergus,2014;He et al.,2016)和图像分割(Girshick,2015;He et al,2017)领域已经成为最强大的算法,图像分类问题对于传统方法来说曾是很大的挑战,在对120万张图像(含1000类)的分类测试中使用卷积神经网络后,图像分类的误差率已经减小到3.57%(He et al.,2016),这甚至比人类肉眼分类的误差率5.1%(Russakovsky et al.2015)还低,深度学习的成功证明了机器在人类高智商活动领域有无以伦比的潜力,通过给定样本数据来训练神经网络,即调整网络参数,算法能够自动获取样本数据的内在规律和输入特征的深层表示,让机器模仿视听和思考等人类的活动,而不需要任何理论公式和经验知识,因此解决了很多复杂的模式识别难题,该技术已经成功应用在图像识别、医学成像(Shen etal.2017;Razzak et a.2018)、语音识别(Hinton et a.2012:Graves et a.2013)、自动驾驶等应用场景,尤其在从高噪声数据中提取有效信号、识别特征模式、挖掘深层信息等方面相对于传统方法展现出压倒性的优势,人工智能技术的应用,有助于大幅度提高声纳图像的解译效率、降低人力成本,也有利于克服人机交互操作和专家经验的主观性和不确定性,提升解决复杂海缆监测问题的能力,提高图像判读成果的精度和质量,除此之外,基于卷积神经网络的深度学习技术可对图像特征进行自主提取与学习,还能够随着训练数据的增加而不断提升性能,因此将深度学习技术应用于声纳图像目标检测任务具有重要的实用价值.

本文提出一种基于UNet (Ronneberger et al.,2015)改进的卷积神经网络(Convolutional NeuralNetwork,CNN),用于对声纳图像中所有线织目标体的自动识别,该网络主要由基于残差模块的编码器和解码器组成,并使用自适应索引动态学习模块引导网络中所有对不同空间尺寸层级特征图的重采样操作,对于将输入映射到具有相同空间尺寸的输出的自然图像处理任务来说,编码器和解码器架构以其优异的性能表现和计算效率成为该类网络的设计准则,该类网络将下采样得到的不同空间尺寸的编码特征,以跳连的方式拼接到相应层级的解码特征上,从而系统地聚合代表全局信息的深层特征,以及代表细节和纹理信息的浅层特征,在此基础上,使用索引自适应学习模块(lu et al,2019)动态地从输入特征图中生成索引函数,以指导网络中的下采样和上采样操作,这有效提高了网络对较复杂细短线缆目标的检测能力,尽管深度学习在拟合复杂的非线性关系方面显示出了强大的能力,但它通常需要大量的样本数据用于网络的训练.在深度字习取得里大成功的许多计算机视觉任务中,教据集的准备是比较完善的,然血,对于声纳图像处理问题,大里依赖人工来杭记图像中的线缆目标不仅繁琐而且容易出错,导致训练样本严重缺乏,为此,提出数据仿真方法来自动获得大量且通真的声纳图像以及对应的线缆标注,从而获取足够的训练和验证数据样本,基于多种不同的量化评价指标,本文通过大量的实验详细对比了该网络和目前主流图像分割网络在验证数据集上的性能表现,验证了方法的有效性.



二、海底线缆目标智能识别


合成孔径声纳(Synthetic Aperture SonarSAS)是目前海缆监测领域的常用技术之一,因其目标识别分辨率高而备受关注,在海底地质勘察、小目标探测、沉船査找、水下考古和海底管线检测等领域具有广泛的应用前景,如图1a所示,其原理是在既定方向航行过程中通过换能器有序地将连续时间回波教据进行干涉合成处理,将较小孔径的声纳基阵虚拟成大孔径的声纳基阵,不仅提高了声波的方位向分辨率,且分辨率不受传播距离的影响(郭军等,2021).

除了采用先进的合成孔径声纳系统,影响海然检测质量和效率的另一个重要因素是检测算法的处理能力,由于海洋复杂、多变的环境和沉积物对声学成像的影响,声学图像(图1b)中的海缆目标体(图1c)有时与海床区分并不明显,甚至被掩埋,此外,水下线目标体本身由于宽度小且长度长,其成像质量通常低于光学图像,受相干斑噪声影响较严重,导致传统的光学目标自动识别方法效果较差(翼大雄等,2021).另一方面,目前海底线缆工程的铺设规模逐年递增,采集的海量的声纳图像数据分辨率越来越高(目前合成孔径声纳系统单侧覆盖能达到250 m,采集图像的空间分辨率能达到5cm).由此产生的海量数据处理需求难以靠传统的人工解译方式满足,不仅周期长且成本高,同时也受图像判读员的业务水平和工作状态影响,解译结果因人而异,判读准确性难以保证,因此,海底线缆检测技术走向自动化和智能化势在必行,更是保障我国海洋利益和国防安全的当务之急.

对于基于声纳影响的线缆目标检测而言,受海底复杂环境和采集条件等不可避免的因素影响,往往无法获得海底线缆的高清图像.要提高海缆检测和定位的精度、准确率和召回率,一个可行的方式是从图像处理算法着手,将声学数据中对线缆目标的检测转化为视觉领域经典的图像分割问题,即在给定的声纳图像中将线缆所在的位置标为1,其余标为0.虽然深度学习一般具有较好的泛化能力,不需要任何理论公式和物理模型,能够适应不同应用场景的需求,具有强大的目标特征提取与分析能力,但通常需要足够多的样本数据进行训练,以学习到输入与输出之间复杂的非线性关系,然而,声纳图像和完整的线缆标注数据集是十分匮乏的,完全依靠人工解译构建训练数据集不仅工作量巨大且成本高昂,标注结果往往存在主观性,或难以解译图像中所有的线缆目标,这些因素都会严重影响网络的训练效果和预测精度,使得深度学习技术在实际应用中受到限制.

为了解决该问题,本文提出一种自动生成样本数据的随机仿真方法来获得大量的合成声纳图像以及对应线缆标注,用于训练卷积神经网络,此外,还考虑将已解译的部分声纳图像加入到合成数据集的构建过程中,从而获得更为通真的训练和验证数据集样本,以提高网络模型在实际声纳图像数据上的泛化能力,在网络架构的设计上,使用了经典的编码器和解码器结构,在编码器分支使用残差学习机制,并使用自适应索引学习模块引导网络不同空间尺寸层级对隐层特征进行重采样,通过大量实验证明,这些方法有效地提高了网络在线缆检测任务中的性能表现.


(一)训练与验证数据集

人工智能技术在声纳图像处理领域应用面临的一个重要挑战是缺乏具有可靠标签的丰富训练数据集,而训练样本的丰富性、多样性和标签的准确性决定了方法实际应用效果的上限,由于缺乏真实标签,并且数据量庞大,不确定性高,完全靠人工标定声纳图像中所有感兴趣的线缆目标体工作量大,且主观性强,因此难以获得完备、丰富且准确的训练样本库,此外,不准确的人工解释,包括错误标记和漏标记的目标体,反而会误导网络的学习过程,降低方法检测精度,为解决深度学习在应用中所面临的训练样本缺乏的问题,本文提出利用随机正演仿真的方式在合成声纳图像中模拟通真的水下管线状目标和环境背景特征,同时自动获得对应的完全准确的标签数据,用于网络的训练和验证,这些管线状目标体通过一组在合理范围内的随机变量进行参数化,因此能自动生成大量具有丰富几何模式的样本数据集,并保证样本的多样性和标签的准确性.


1.合成声纳图像

为创建合成海底声纳图像和相应线缆特征,我们首先在图像中随机创建任意数量的直线段,并对直线做进一步的随机变形来获得复杂的弯曲线状特征,根据直线的点斜式方程,空间中的一点和通过该点的斜率可以定义一条直线,如图2a所示,在图像区域内的随机位置处给定任意数量的点,并在45°和135°范围内(红色区域)随机选择斜率来创建对应的直线,之后,分别沿着这些直线的法方向进行随机扰动变形,从而获得一系列复杂弯曲的线状目标体(图2b),同时输出相应的标注图像(图2c),为模拟实际海底线然的声纳响应特征以丰富样本数据集,需要进一步对仿真图像中的部分线状目标进行随机遮挡,尽管有很多其他随机方法可以用于模拟水下管线状目标的掩埋特征,但应避免在训练样本数据中引入特定的遮挡模式,例如,最简单的方法是在图像中随机生成多个大小不一的方形窗口,并去除位于窗口内的局部线状特征,虽然这种方法被广泛应用于很多基于深度学习的图像修复任务中,但其可能会对水下管线检测网络的性能产生负面影响,因为在实际应用中水下管线的掩埋区域不太可能是相同的方形,为了解决这个问题,本文使用正弦函数和余弦函数的组合对部分线状目标进行随机遮挡(图2d),并通过随机改变三角函数的相位和幅值模拟海底线织的掩埋、沉底或县浮状态,以增强仿真过程的随机性和多样性,从而获得较为通真的海底管线状目标体(图2e),提高方法的泛化能力.

(a)利用点斜式方程随机创建直线;(b)沿法方向对直线隨机扰动;(c)创建线缆目标标注;(d)利用三角函数随机生成的遮挡图像;(e)对线缆目标部分遮挡;(f)在图像中增添隨机噪声;(g)实际采集的声纳图像;(h)人工解释线缆标注图像;(i)合成声纳图像;(j)合成线缆标注.

(a) Random creation of lines using the sope equation;(b) Random perturbation of the ines along their normal directions;(c) Generation of cable target annotations;(d) Creation of occlusion masks using randomly generated trigonometric functions,(e)Partial occlusion of cable targets;(f )Addition of random noise to the image,(g) sonar imaae acauired from real surveys;(h) Manually interpreted cable annotation;(i) synthetic sonar image;(j) Corresponding synthetic cable label.

在创建管线状目标体图像后,仍需要对合成孔径声纳系统采集的海底地质环境特征进行仿真,为尽可能地构建接近实际声纳图像的海底背景特征,本文分别对其低频部分和高频部分进行模拟,对于海底背景特征的高频部分,在图像中加入一定强度的脉冲噪声以模拟由于观测系统或者水声信道不均匀及边界不规则等因素引入的噪声特征(图2f),在模拟代表海底环境背景特征的低频部分时,为更好地在训练样本中引入实际声纳图像常见的斑点噪声明显、边缘模糊、亮度不均匀和分辦率低等干扰特征,本文将少量人工解释的声纳图像(图2g)和相应标签(图2h),或不含有管线状目标的声纳图像,与上述管线状目标体图像以随机的权重进行加和,从而构造出丰富目通真的训练样本数据(图2i和2j).值得注意的是,用于构建训练样本库的带人工标注数据并不需要对实际声呐图像中所有潜在线缆目标进行精确的、像素级的完整标注,而只需进行粗略的、图像级的简单标注,即判断该图像中是否存在线缆,并保留不含线缆的图像用于数据仿真,由于大部分的实际声呐数据均不含检测目标体,因此该仿真方法能极大降低检测算法对专家人工解译的依赖性.

图3展示了最终获得的用于训练网络的合成孔径声纳图像(a)和对应的标签(b),其大小均为416x576.图3b中需要探测的管线目标用1标记,非管线位置用0标记,由于该仿真流程的高效性,无需网络训练之前准备确定数量的样本数据集,而是在网络的训练和验证过程中实时生成训练样本和对应标签数据,直到训练及验证曲线收敛,通过随机选取关于直线位置、扰动幅度、信号强度和噪声等一系列参数,可以保证在每次选代中输入到网络中的一批(one batch)数据都是不一样的,从而使网络能够充分学习到对线织各种几何形态的检测能力,有效避免了过拟合问题,同理,基于相同的工作流程,只需有针对性模拟不同地质条件下声纳图像的背景响应特征,生成对应的样本数据并训练网络,就能够保证方法在不同海底环境应用的有效性,此外,本文仅使用了占一次选代中所有训练样本0.01%的人工标注数据用于仿真,如果条件允许,我们也建议使用更多样化的带标注数据作为上述仿真方法的输入,以进一步丰富训练数据集并获得更优的网络泛化性能.


2.训练数据扩充

创建大量的训练声纳图像和线缆标注对于训练海缆目标检测网络至关重要,训练期间的数据扩充也有助于增加数据集的多样性,并防止神经网络拟合不相关的特征模式,如噪声或者其他目标特征等,本文采用简单的垂直翻转和随机裁剪,以实现对训练和验证数据集的扩充.


(二)基于CNN的线缆目标检测

本文将海底线缆目标检测看作是一个图像分割问题,即存在线缆目标的位置处标为1,而其他位置标为0.通过使用一种由索引引导的UNet(一种端到端的CNN)来实现对目标的分割,从而高效且准确地检测海底线缆.Unet是由Ronneberger等(2015)提出的用于生物医学图像分割的方法,之后它被广泛用于许多其他领域的图像分割问题,在此基础上,本文在网络中使用索引自适应学习模块,该模块能够根据输入的特征图动态生成索引函数,用以指导池化和插值操作,实验发现,通过引入索引自适应学习模块,可以有效提局网络对细短线然目标的检测能力,在合成孔径声纳图像中,线然目标样本和非目标像毒的分布通常高度不平衡,本文使用平衡交叉熵损失(Xieand Tu,2015)和交并比损失指导网络参数的优化,加快训练过程的收敛.


1.神经网络架构

本文的神经网络使用了与UNet以及相关的变体(Ronneberger et al,2015;Zhou et al,2018)所类似的U型架构,我们最初使用原始的UNet进行研究,但实验结果证明管线状目标检测问题并不需要如此复杂的网络,因此本文在前人工作的基础上进行改进,减少了卷积层和每层的特征,以节省内存和计算量,从而允许方法在GPU上快速处理高分辨率声纳图像,并在检测精度和效率之间找到最佳的平衡.此外,使用索引学习和残差学习机制提高网络对空间特征的表示能力,以在水下管线状目标检测中获得良好的性能表现,用于线织检测的网络架构如图4所示,该网络遵循图像分制中经典的编码器和解码器设计准则,包含特征编码器路径(左支)和特征解码器路径(右支).与原始UNet网络架构相同,该网络包含有4个空间感知层级,以实现多尺度信息融合,与之不同的是,本文额外引入了索引自适应学习模块,它能够根据输入特征图动态地生成编码索引和解码索引,用于引导对两个尺度层级之间特征图的上采样或者下采样操作以减弱传统池化或者插值操作对部分空间信息的遗失,并增强网络的特征表达能力.

在左支编码器路径中,输入的图像数据首先经过3x3的卷积层以及批归一化层(BN)和ReLU非线性激活函数,用于捕捉局部平移不变的低层次图像特征.输出的特征图被输入到由一系列残差学习模块组成的多尺度学习单元中,进一步提取更高层级的图像特征,每个空间尺度层级的特征处理流程包含两个残差卷积模块,以及2x2的下采样处理,并在每一步下采样之后将特征通道的数量增加一倍,通过系统地聚合特征的四个空间尺度模式,编码器能逐步提取抽象的且更具有代表性的知识表达,这种方式有助于提高网络的视野域,并有效节省计算资源.

如图5所示,每个残差学习模块(Sandler et al.2018)主要由三层卷积层所组成,每层的核大小分别为1x1,3x3和1x1,每个卷积层均有BN层和ReLU激活函数,第一个1x1卷积层用于将特征通道数量变为输入特征图的6倍,以便后接的3x3卷积层提取更加丰富的图像信息,最后一个1x1卷积层用于输出和输入特征通道数量相同的特征图,这种方式有助于提高输出特征的特异性,让网络学习到更具代表性的信息,此外,在卷积操作之前对输入的特征图进行边界补零处理,以保证和输入特征图空间尺寸一致,通过在卷积层两端加入短跳跃连接,将该学习单元表示为残差学习函数,这种方式有助于在神经网络中反传梯度信息,从而更加有效地更新网络参数,并加快损失函数的收敛,使用动态生成的索引函数来指导不同空间尺度层级间对特征图的池化操作,即在给定的局部区域内(2x2)计算编码索引和输入特征图的加权平均,在实际编程实现中,原始的特征图首先进行平均池化层处理,之后和编码索引之间的元毒相乘得到下采样的特征图.

在右支解码器路径中,每个空间尺度层级的特征处理流程包含一个2x2上采样操作、一个与左支路径中的对应特征图的长跳跃连接,以及两个常规卷积层模块,每个卷积模块包含有核尺寸为3x3的卷积层,以及BN层和ReLU激活函数,与编码器分支类似,本文用动态生成的解码索引来进行上采样,并使上采样的特征图在空间上与其下采样区域相对应,具体地,将解码索引与临近插值处理后的特征图进行逐元素相乘,获得上采样之后的特征图,这种索引上采样与传统反褶积的重要区别在于,反褶积将一个固定的核函数应用于所有局部区域,而本文方法使用不同的核(索引)函数对不同区域进行上采样,因此能获得更加灵活的特征表达能力,最后的输出层包含核尺寸为1x1卷积层以及siamoid激活函数,它将提取的32维特征向量映射到每个像素位置上的概率值,且与输入图像的大小相同,即输出结果中每个概率值与输入声纳图像的单个像素一一对应.


2.索引自适应学习模块

在深度图像分割以及深度图估计等计算机视觉任务中,索引学习(Lu et al,2019)的引入被认为能有效地提高网络对于目标边界的恢复能力.假设索引函数f(x)和相应的待征映射X在局部空间内一一对应,由于上采样和下采样操作均可以看作是索引函数,可以将它们统一成关于索引函数的一般形式:

其中Xl表示从特征映射X重排而成的尺寸为1×1×k2的张量,因此I可以看作是一个指示器函数;W表示网络学习到的尺寸和特征映射一致的权重,

其在传统的双线性或临近插值操作中是固定不变的;则表示逐元素相乘算子,理论上,卷积神经网络可以通过分析局部特征模式自适应学习该索引函数,因此可以赋予重采样操作更大的自由度,进而提升网络对于样本数据中复杂特征的表示能力。如图6所示,索引自适应学习由计算模块和两个正则化层组成,在这项工作中,索引计算模块被定义为卷积神经网络,即通过输入的特征图计算索引函数,索引函数的尺寸与输入特征的尺寸保持一致,而索引图的每个通道仅与特征图的对应通道相关,在索引学习模块中,一个特征图经过四个平行的学习单元,每个学习单元由核大小为2x2以及步长为2的卷积层,后接RelLU激活函数以及核大小为1x1,步长为1的卷积层所组成,且它们的参数不会共享,假设输入为HxWxC的特征图,可以得到四个大小为H/2xW/2xC的下采样特征映射,而最后的索引映射则由四个特征映射通过归一化以及混洗和重排而生成,除此之外,通过在索引学习模块中使用更大的卷积核网络可以在更大尺度的局部特征图中提取有效信息,从而增强其对图像噪声和目标边界的判别能力.

值得注意的是,对应于编码器和解码器的索引映射的归一化方式有所不同,对于解码器索引映射,仅使用Sigmoid激活函数,它使得对于任何预测索引的值均在0和1之间,而对于编码器索引,还需通过Softmax激活函数进一步归一化,从而保证下采样后特征图的幅值一致性,虽然索引自适应学习模块与注意力机制类似,但不同的是前者用于指导网络的上采样和下采样操作,而后者直接用于对特征进行修饰,此外,注意力机制被定义为逐点操作特征图,而家引被定义在与卷积核对应的局部区域内进行上采样或下采样操作.


3.损失函数

对于自然图像的二值分割问题,广泛使用以下的二值交叉熵损失函数:

其中N表示输入图像中的像素数量,yi表示二进制标签,pi表示从最后一个卷积层后的Sigmoid激活函数给出的概率值,因为真实标签yi是二进制值(0或1),所以第一项计算以1标记的图像像素处的预测误差,而第二项计算以0标记的像素处的预测误差,值得注意的

是,该损失函数要求训练数据集正样本和负零样本的数量大致相同.然而,这种损失函数通常适用于一般自然图像的二值分制,其中零或非零样本的分布通常是均衡的,因此,它并不适用于衡量海织目标的检测误差,因为在该类数据样本中,通常90%以上的像毒属于非目标样本(用0标记),而目标样本(用1标记)非常有限,如果使用该损失函数进行训练,会导致网络收敛到错误的方向,例如,将所有像素位置预测成非线缆目标便能够很好地减小该损失函数,为解决这个问题,本文使用平衡交叉熵损失函数:

该损失函数的引入可以有效地在训练过程中引导网络对预测概率值在0和1之间的不确定区域进行校正,因此有助于网络更加准确地识别海缆目标的边界位置,并消除由于预测概率的不连续而在检测结果中产生的异常结果.综上所述,本文在网络的训练阶段使用加权后的混合损失函数:

其中,α代表用于平衡两种损失函数在网络训练过程重要性的超参数.根据大量的预实验结果,将其设为0.4能够获得最优的网络性能(表2).



三、实验结果测试与分析


本节对网络的训练和验证过程进行了详细讨论,并在合成数据集上用多种量化评价指标对比了该网络与目前主流图像分割网络的性能表现.最后,在实际海底声纳图像上进行测试,验证本文方法的有效性.


(一)网络的训练与验证

本文使用Pytorch工具库(Paszke et al,2019)来搭建神经网络,并实现其整个训练和验证过程,在网络训练阶段,我们使用了6000对合成孔径声纳图像和线缆标签图像用于训练CNN.此外,验证数据集包含另外100对合成声纳图像数据,用于在训练过程中实时验证网络的性能,值得注意的是,用于验证网络的数据样本未在训练数据集中被使用,考虑到实际声纳图像与合成样本数据的幅值可能会有较大的差异,本文对所有训练及验证数据进行了标准化处理,即对每个图像减去其平均值后除以其标准差,从而获得标准化数据集。合成声纳图像被分批输入卷积神经网络,每批包含实时生成的4幅声纳图像和对应的线缆标注,其中包括1幅原始图像和3幅数据扩充图像,本文使用Adam方法(Kinama and Ba.2014)自适应优化网络参数,并将学习率设置为0.005,当预先定义的指标性能停止改善时,学习率自动降低,在网络优化过程中,当衡量性能的损失指标在两个周期内停滞时,将学习率降低至原来的一半,总的选代次数设置为200次,所有输入数据均在一次选代内被遍历.从图7a可以看出,当经过200个周期后优化停止,训练和验证过程的损失均逐渐收敛到小于0.004,这表明网络已学会提取声纳图像中潜在管线状目标的有效特征模式,图7b显示在整个训练过程中学习率的自适应调整过程.


(二)合成数据测试

当训练过程结束,将训练好的网络应用在100对验证数据样本上,如图3所示,该网络在这些声纳图像(图8a)上有较好的应用效果,从图8b可以看出,网络检测的线缆区域边界清晰,并且可以连续地追踪较长的线状目标,该检测结果与真实的标注位置(图8c)也较为吻台.

为进一步验证本文所提出的方法的有效性,本文使用多种当前较为主流的图像分割网络和相同的损失函数进行对比实验,并在同验证数据集上测试这些网络的性能,为量化不同网络架构在验证集上的性能表现,使用包括像素精度(Pixel Accuracy,PA),平均像素精度(Mean Pixel Accuracy,MPA),平均交并比(Mean Intersection over Union,MloU)和频率加权交并比(Frequency Weighted Intersection overUnion,FWIoU)等多种评价指标来衡量算法的检测精度.PA是对图像分制精度最直接的衡量,即分割正确的像素数量占总像素的比值.而MPA是对PA的进一步补充,它计算每个分割目标被正确分类像素数的比值,然后计算所有目标的平均值.MIoU同样为图像分制的标准度量指标,它计算真实结果和预测结果的交集和并集之比,且在每个识别目标上计算!0U,然后计算平均值,FWIOU在MloU的基础上,根据每个分类目标出现的频率设置权重,即在每个类别上以加权平均的方式衡量网络的性能表现.

用于对比实验的主流神经网络架构包括UNet(Ronneberger et al,2015),RefineNet (Lin et a.,2017)以及DeepLabv3+(Chen etal.,2018b)等,实验时使用对比算法遵循作者所提供的公开可用代码和所推荐参数设置.UNet是一种用于解决医学图像分割问题的经典网络,采用编码器解码器架构和跳连方式,以四次下采样的方式获取并融合不同空间尺度的特征信息,通常来说深层卷积层有着更大的视野域,其关注图像的全局或语义信息,而浅层卷积层更关注纹理和边界特征,融合二者的优势有助于提升网络的预测能力.除此之外,通过逐层卷积和上采样得到的更大尺寸特征图通常缺少边缘特征,而跳连拼接有助于网络找回这部分边界信息,提升预测结果的分辨率,在UNet的基础上,RefineNet使用链式残差卷积模块,从不同尺度的图像区域中提取有用的池化特征,并利用远程残差连接进行融合以实现高分辨率图像分割,这使得梯度能够在长距离和短距离进行传播,有效提升了网络的预测精度,DeepLabv3+在编码器解码器架构的基础上引入空间金字塔池化模块,该模块能够通过使用不同膨胀系数的卷积核产生不同尺度的感受野来分析图像特征,从而对多尺度信息进行编码,之后的解码器网络以一种渐进的方式恢复空间信息来捕获更加清晰的目标边界,该方法结合之前DeepLab(Chen et al.,2018a)网络的优点,将Xception模块(Cholet,2017)和深度可分离卷积相结合,从而在推理速度和预测精度方面得到进一步提升.除了对比目前主流的三种图像分割网络外,本文额外加入一组消融实验用于验证Index模块的引入能提高网络的性能,在该对比测试中,我们使用相同的网路架构,唯一不同之处在于将Index模块引导的上采样和下采样替换成传统的最大值池化与去池化操作,表1用四种评价指标量化了不用网络结构在验证数据集上的应用效果,最优的性能表现被加粗显示,可以看到,本文使用的Index模块与残差模块加持的神经网络在各个评价指标上均实现了最优效果.

表2量化了不同损失函数系数对网络性能的影响,虽然I0U损失能够有效地校正预测目标的边界,且避免在预测结果中产生空洞,但是如果预测目标和实际目标没有重叠区域,损失将为0.在这种情况下,梯度无法反传,因此网络参数也不能更新,除此之外,l0U损失无法区别两个目标之间的重叠方式,在不同方向上有相同交又级别的两个重叠目标会有类似的损失,而在海缆目标识别任务中,平行与垂直线缆方向的交又级别会在视觉上有较大差异,因此有必要引入平衡交叉熵损失以正确引导网络参数的优化过程,获得期望的输出,实际上,在网络的训练阶段使用混合损失函数的同时,也引入了额外的超参数去平衡两种损失在训练中所占的权重,为寻找最优的权重参数,本文进行了一系列数值试验,即使用不同的损失函数权重系数和相同的网络架构进行多次训练,并使用上述评价指标量化其在验证集上的效果,其中最优的性能表现被加粗显示,通过不同量化评价指标对比可以看出,当损失函数权重系数为0.4时,本文的网络模型获得了最优的检测精度.

为了探究网络能够在多大尺寸的声纳图像上保持良好的检测效果,本文额外设计了一组对比实验(表3).该实验使用相同的网络在不同纵向分辨率的声纳图像上进行线缆目标的检测,我们一共测试了8组对比实验,其中416x576为训练数据集使用的图像尺寸,包含1组尺寸大于训练数据的图像以及6组尺寸小于训练数据的图像,使用上述四种不同的量化评价指标对网络的性能进行评估,结果显示,当输入图像的纵向分辨率在训练图像的40%以上,网络能够有较好的检测精度,而当其小于40%时,网络的性能开始有较快的下降趋势,因此可以判断,网络对于较小尺寸的声纳图像有一定的泛化能力,但当图像纵向分辨率过低时,仍然有必要构建相应数据集重新训练网络,以使其获得足够的检测精度.


(三)实际数据应用

为验证仅使用合成数据训练的网络在真实数据上具有可靠的泛化能力,使用训练好的网络在实际采集的海底声纳图像上进行应用为保证网络推理过程和训练过程的一致性,将原始图像重采样到1600x576的尺寸,然后从中随机剪裁成256x576大小的图像作为网络的输入.此外,对所有的声纳图像进行标准化处理,即减去平均值除以标准差,得到标准化数据作为网络的输入.

图9a和9b分别显示了实际声纳扫描图像和人工解译结果,图9c则显示了使用训练后的网络自动检测的水下管线状目标体,我们发现网络在该实际数据应用上显示了较好的稳定性,能够精确地捕捉信噪比较低的声纳图像中由于沉底或者掩埋导致的不明显管线状目标,尤其对长且连续的目标具有较好的检测能力.此外,通过使用随机正演模拟与实际声纳数据相结合的仿真流程来自动生成大量有代表性的数据样本,训练后的网络能够有效区分感兴趣的管线状目标体和与目标特征类似的无关特征,如图9a第三列图像中的与检测目标不相关的横纹特征,由于整个方法均基于GPU并行计算平台,因此能够快速对大范围海域内采集的海量声纳数据进行管线状目标体的检测,具备时效性.



四、结论


本文针对目前声纳图像处理中存在的数据量大、耗时长和解译质量因人而异且难以保证等问题,聚焦于目前主流的深度学习算法,提出了一种基于卷积神经网络的声纳图像线缆目标自动检测技术,该方法通过叠加多个卷积学习单元形成深度网络,逐步提取具有代表性的管线状目标特征表示,同时压制图像中的噪声和不相关特征,通过优化网络结构设计,本文提出一种由残差学习模块构建的编码器分支和解码器分支所组成U型网络,在编码器分支,网络对特征映射进行四次下采样,以获得代表线状目标体不同空间尺度的特征模式,通常来说,深层卷积层有着更大感受野而更关注图像全局信息,而浅层卷积层关更注边界及纹理信息,融合这两种信息有助于提升方法的检测精度,在解码器分支,网络利用跳连将对应相同尺度编码特征和解码特征进行融合,以保留输入图像的边界信息,并提高检测结果的空间分辨率,在此基础上,额外引入索引自适应学习模块,从而使网络能够根据输入特征动态生成索引函数,以指导不同空间尺度层级间的池化和插值操作,有效提高网络对复杂的细短线织目标的检测能力,通过合成和实际数据测试,该方法能够较精确地捕获肉眼难以识别的水下掩埋或沉底的管线状目标体,且充分利用GPU运算平台的强大并行处理能力,从而有望突破传统的目标检测方法在效率和精度上的双重瓶颈,实现对海量声纳图像中所有线缆目标体端到端的快速处理和精确解译.

尽管深度学习技术在拟合复杂的非线性关系方面显示出了其强大的潜力,但它通常需要大量的样本数据用于训练,以寻找最优的网络参数,为解决这个问题,本文提出一种能自动生成声纳图像以及线缆标注的数据仿真流程,该方法能自动生成大量具有丰富几何模式的样本数据集,保证了样本的多样性和标签的准确性,降低了网络训练对人工标注数据的需求,有效解决了深度学习在声纳图像处理领域应用中所面临的训练样本缺乏的瓶颈问题,实现了行业知识与人工智能技术的融合,在验证数据集上,通过不同的里化评价指标详细对比了本文方法和目前主流的图像分割网络的性能表现,并通过消融实验证明了自适应索引模块的引入能够有效地提升网络的检测精度,还讨论了不同的损失函数系数训练网络的应用效果,并给出了最优权重参数选取,实验结果表明,本文提出的方法在合成数据测试和实际数据应用中均取得良好的效果,基本解决了声纳图像中复杂线缆目标的识别问题,但依然存在一定提升空间,在后续工作中,将对网络模型架构和数据仿真过程进行改进,从而进一步提升网络的泛化能力.



五、参考文献




声明:本公众号相关内容均来自主流媒体及公众号,非商业用途,并不意味着赞同其观点或证实其内容的真实性。版权归原作者所有,如有发现侵犯您的权益,请后台联系编辑,我们会尽快删除相关侵权内容。





【声明】内容源于网络
0
0
智慧海洋公众交流平台
我们旨在给对智慧海洋感兴趣的朋友提供一个相互交流学习的平台!这里汇聚了来自海洋领域的顶级专家、计算机通信高手、各大著名研究机构学者以及奋斗在海洋产业化一线的管理、研发、销售人才……欢迎大家随时随意交流,共同促进智慧海洋事业的快速发展!
内容 928
粉丝 0
智慧海洋公众交流平台 我们旨在给对智慧海洋感兴趣的朋友提供一个相互交流学习的平台!这里汇聚了来自海洋领域的顶级专家、计算机通信高手、各大著名研究机构学者以及奋斗在海洋产业化一线的管理、研发、销售人才……欢迎大家随时随意交流,共同促进智慧海洋事业的快速发展!
总阅读259
粉丝0
内容928