“声学中的机器学习” JASA.特刊综述- 大数跨境

两江科技评论

2021-12-16

导读：在过去十年中，机器学习（ML）在声学中的应用受到了广泛关注。

在过去十年中，机器学习（ML）在声学中的应用受到了广泛关注。机器学习的独特之处在于它可以应用于声学的所有领域。机器学习具有变革潜力，因为它可以提取有关在声学数据中观察到的事件的基于统计的新信息。声学数据提供从生物学和通信到海洋和地球科学的科学与工程见解。本期特刊包括61篇论文，说明了机器学习在声学中的各种应用。

当我们在美国声学学会期刊（JASA：the Journal of the Acoustical Society of America）上开始为“声学中的机器学习”特刊征文时，我们的目标是邀请将机器学习应用于所有声学领域的论文。它们被列出但不限于如下：

• 音乐与合成分析

• 音乐情感分析

• 音乐感知

• 智能音乐识别

• 音乐源分离

• 歌唱分析与音质评价

• 音乐表现力

• 生物声学

• 声景

• 听力和助听器

• 语音、语言和情感识别

• 语音识别

• 言语中的情感

• 言语感知

• 演讲中的表现力

• 智能语音处理

• 多媒体语音处理

• 从有源声学分类

• 声源定位

• 海洋声学中的声场预测

• 声海洋学

这是因为 — — 在过去的几十年里 — — 我们已经看到机器学习在声学中找到了它应有的位置，特别是当特定领域需要一种新颖的方法来挑战“旧”的复杂问题时。多年前，Zadeh¹^，2定义了软计算，这是一组允许输入数据和问题描述不精确的机器学习技术。这涉及到几种计算方法，即人工神经网络、模糊逻辑和概率推理，例如粗糙集等，面向类人推理。所有这些方法都与统计方法一致，以证明所获得的结果是正确的。人们可能想知道最近机器学习方法及其进展相对迅速激增的原因可能是什么，通常被称为深度学习。它包括贝叶斯网络、神经网络和对抗网络等。当然，这个问题没有一个答案；有几个明显的原因对机器学习算法和应用程序的进步产生显著影响，即数据库资源的快速增长促进了大量数据的收集并经常在科学界之间共享，更快的处理器，使用图形卡处理数据和信号、网络资源、更快的网络和开放的研究访问。

在本期特刊中，有多种此类机器学习技术及其在许多声学领域的应用；然而，研究人员的兴趣并没有平均分配。与水声学相关的论文很多，包括海洋哺乳动物声音分析、噪声、回声定位、听觉场景分析，另一个最受关注的领域是语音处理。图1显示了论文主题的出现频率，以可视化在声学中使用机器学习方法的论文的分布。

图1：本期与应用机器学习的声学领域相关的特定主题的出现频率。

《Acoustics Today》有一篇关于这个问题的配套论文，“机器学习如何有助于解决声学问题？”，由我们的客座编辑小组编写。³我们鼓励不熟悉机器学习的读者阅读这篇文章；对于新的声学搜索专家来说，理解机器学习背后的想法可能是一份通畅的介绍。有关机器学习技术的数学细节的介绍，请参阅参考资料⁴。我们希望本期特刊中的论文能够引起读者的兴趣，特别是考虑到成熟的最新机器学习方法已应用于声学。

特刊贡献的论文

A. 海洋声学

海洋声学为我们提供了将机器学习技术应用于各种复杂问题的丰富机会。海底参数表征，通常称为地声反演，是过去引起极大兴趣的研讨主题。沿着这些路线，在参考文献中⁵、Frederick等人实施了机器学习方法，包括用于声场沉积物分类的卷积神经网络（CNN），并表明，在存在不确定性的情况下，机器学习方法优于传统的匹配场处理（MFP）。同样，Smaragdakis和Taroudakis ⁶实施了隐马尔可夫模型方法，结合遗传算法从海洋中的声学信号中提取特征，并开发了一种可靠的地声反演方法。Shen等人⁷也将机器学习用于地声反演。其中的结果表明，与传统方法相比，他们的技术（涉及径向基函数网络）在反演中对一些未知的沉积物参数具有更高的灵敏度。

声源定位是另一个问题，它一直是海洋声学重要研究机构的重点，现在正通过机器学习得到广泛解决。Liu等人⁸将CNN和多任务学习应用于水下环境中的源定位问题。他们发现，与传统的MFP相比，CNN对环境的不确定性更具鲁棒性。Chen和Schmidt ⁹还使用CNN进行海洋中的源定位。与其他研究类似，他们通过合成和真实数据证明，在存在环境不确定性的情况下，实施的网络优于传统的MFP。Ferguson ¹⁰使用基于倒谱和基于相关性的特征向量来训练CNN以定位过境的摩托艇。他表明，与仅使用倒谱或仅使用相关作为特征的CNN相比，组合倒谱-互相关CNN提供了卓越的源定位性能。Wang等人¹¹使用CNN和传统波束成形的组合在海洋中进行了源深度估计，同时还采用了迁移学习。结果证明了该方法优于传统CNN。Neilsen等人¹²还使用CNN在海洋环境中进行了源深度估计— —与海底分类同时进行。他们研究了训练和测试模式之间的不匹配对估计/分类结果的影响。同样，Van Komen等人¹³通过将CNN应用于根据水面船舶声音信号计算的频谱图，进行了源定位和沉积物表征。

Yoon等人¹⁴使用残差神经网络在海洋中进行了源深度估计，并展示了该方法在环境不确定性和接收传感器位置方面的稳健性。Cao等人¹⁵提出了一种深度迁移学习方法，用于使用单矢量传感器估计到达方向。性能分析表明，该方法优于传统的CNN。矢量传感器记录的数据也用于参考文献¹⁶。Whitaker等人¹⁶使用循环神经网络，包括浅层和深层，使用矢量传感器在海洋介质中估计到达方向。网络性能优于常规预测。深层网络比浅层网络表现得更好。

海洋声学的其他应用包括矿藏探测和水下通信。Brandes等人¹⁷实施了一种环境自适应方法，并结合了分割约束神经网络，以实现有效的自动矿藏类物体识别。McCarthy等人¹⁸应用基于辫子理论的与模型无关的几何特征表示来跟踪不同的信道现象并改进浅水声通信的信道估计。此外，这些技术在机器学习的特征提取中被证明是有价值的，使用前馈神经网络估计和确定编织物跟踪的反射器活动的数量可能会发生。Zhang等人¹⁹将元学习方法应用于水声通信的正交频分复用，并表明该方法优于经常用于此类任务的传统深度神经网络。

B. 动物生物声学

对动物生命的观察以及生物信号的检测和分类也为我们提供了开发和应用各种机器学习方法的沃土。方法范围从检测物种或种群到提取调用的详细特征。许多这些检测和分类技术是其他过程的第一步，例如缓解、密度估计或监控行为。

Lee和Staneva ²⁰开发了一种基于矩阵分解的无监督机器学习方法，用于从使用回声测深仪从生态系统收集的数据中提取信息；这种方法有助于在海洋中进行基于声学的生物观测。Ozanich等人²¹应用深度嵌入聚类和高斯混合模型来区分鱼的声音和鲸鱼的声音。他们发现这些方法优于传统的聚类。Cotter等人²²使用适用于回声测深仪测量的散射模型实施了k最近邻方法，并将其用于对在新英格兰大陆架断裂附近的中远洋中测量的生物目标频谱进行分组。Gruden和White ²³展示了如何使用基于概率假设密度过滤器的机器学习技术从记录的数据中有效地提取海洋哺乳动物的发声。Gruden等人²⁴还提出了一种基于高斯混合概率假设密度滤波器并包括多源、源出现和消失、漏检和误报的多目标跟踪方法来自动化到达时间差跟踪。结果表明，通过使用扩展的测量模型并结合来自宽带回声定位咔嗒声和窄带哨声的测量结果，可以从声学信号中提取更多信息。该方法在假虎鲸记录上进行了测试。

在识别海洋哺乳动物发声的问题上，Rasmussen和Sirovic ²⁵开发了基于CNN的检测器，该检测器对高度可变的鲸鱼叫声具有高精度和召回率。Padovese等人²⁶研究了在训练深度神经网络以对北大西洋露脊鲸上调进行分类时使用合成生成的样本增加训练数据集的好处。实施了两种增强技术，SpecAugment和Mixup，并显示它们可以改进呼叫分类。Vickers等人将降噪CNN和自动编码器应用于噪声破坏的音频信号的频谱图²⁷。然后将降噪信号包含在训练中，从而提高鲸鱼发声检测/分类的准确性。Schall等人²⁸表明，基于声学指标和监督神经网络的组合的准确判别模型为座头鲸种群中的发声类型的快速和高度可重复的识别和比较提供了一种自动化解决方案。Roch等人²⁹使用前馈神经网络开发了时域鲸鱼回声定位点击检测器。该方法能够找到人类分析人员遗漏的回声定位。Zhong等人³⁰使用声学特征来检测、分类和计算四个蓝鲸声学种群的叫声。目标是更好地评估每个种群的保护状况。Siamese神经网络用于该任务，发现其性能优于CNN。

与海洋生物相关研究类似，Morfi等人³¹使用三重网络为鸟类声音创建了深度感知嵌入。他们使用了多维缩放预训练、注意力池和三元组挖掘方案。然后，他们证明了基于行为判断为各种数据开发感知模型的方法的可行性，有助于理解动物如何感知声音。

树叶的分类也通过机器学习方法进行了处理。Kuc ³²采用来自树叶目标的频谱图回波作为人工神经网络的输入，用于树叶目标分类。Kuc表明，使用频谱图的分类性能明显优于使用回波包络时的性能。

C. 超材料设计

超材料的研究和设计是另一个为机器学习的使用提供丰富机会的领域。Ciaburro和Iannace ³³收集了超材料吸声系数测量值。这些测量被用来训练人工神经网络。测试时，网络提供了超材料的吸声系数估计值，与测量值非常相似。Gurbuz等人³⁴使用对抗性神经网络来深入了解声学超材料的设计。Shah等人³⁵也将机器学习用于超材料设计，具体来说，深度学习被用于以隐身为最终目标的声学材料设计。

Stender等人³⁶也研究了材料特性。数据驱动的逆向工程方法用于从吸声材料的吸收系数谱中识别因子。对神经网络的分析确定了吸收系数谱的重要特征。结果表明了不同因子对吸收系数测量的影响程度，并可能有助于更好地了解不同的制造技术或安装方法如何影响不同频率下的吸收系数。

D. 语音处理

随着新的和强大的机器学习方法的发展，语音处理— —例如增强、识别、合成或情感感知等 — — 已经取得了巨大的进步。这些技术正在颠覆人机交互的标准方法，并具有广泛的应用，包括快速发展的物联网。

Shankar等人³⁷实现了一个依靠循环神经网络的双麦克风语音增强框架。该方法提高了嘈杂环境中的语音质量和可懂度。同时，Chinen等人³⁸研究了使用深格网络在存在各种失真的情况下进行语音质量估计的多维映射函数。该方法优于传统映射函数的语音质量估计，并促进了不确定性量化。Morgan等人³⁹分析了几种神经网络架构的性能，包括用于预测语音情感的CNN。

Liu等人⁴⁰使用语音信号段的频谱图以及实际波形，并成功地将FaceNet应用于它们以进行情感识别，而Mahmud等人⁴¹实施支持向量机模型来评估听众的语音分类效果如何通过全脑和半球特异性反应解码。Zhang等人⁴²开发了一种基于深度神经网络的高分辨率到达方向方法，用于使用小规模阵列进行多语音源定位。新方法的性能优于传统的波束成形技术。

Riad等人⁴³提出使用参数化神经网络层，计算基于Gabor滤波器的特定频谱时间调制。该方法在语音活动检测方面表现出出色的性能，同时它也很成功，可与说话人验证、城市声音分类和草雀呼叫类型分类中的最新方法相媲美。Piotrowska等人⁴⁴采用k-最近邻、朴素贝叶斯方法、长短期记忆和CNN来自动评估专注于特定语音特征的发音。Korvel等人⁴⁵确定了一种突出波兰语和立陶宛语辅音音素之间声学差异的方法。基于与CNN相结合的语音声学参数采用相似矩阵。相似性矩阵方法的性能证明了其优于其他技术。参考文献中的工作⁴⁶表明机器学习技术在使用一小组声学线索对俄语擦音[f]、[s]和[∫]进行分类方面非常成功。实现了基于决策树、随机森林、支持向量机和神经网络的分类器来区分三种摩擦音。结果证明分类成功。

Tsipas等人⁴⁷介绍并评估了一种音频驱动的多模态方法，用于多媒体内容中的说话人分类，使用半监督的视听嵌入聚类，使用深度学习技术生成。

Smalt等人⁴⁸探索使用来自插入耳朵的听力保护装置（HPD）照片的视觉信息来估计听力保护装置的衰减。使用深度神经网络，在预测HPD拟合是大于还是小于中值测量衰减时实现了高分类精度。

E. 故障检测

在本期特刊中，还介绍了故障检测和噪声缓解方面的研究。Alavijeh等人⁴⁹研究了机器学习在聚乙烯管对接熔接接头超声波检测自动化中的适用性。CNN被发现是检测缺陷的有效工具。沿着相同的故障识别路线，在参考文献中⁵⁰，支持向量机被用来评估特征重要性的吱吱声和嘎嘎声识别。同样，Teja等人⁵¹致力于使用CNN识别油箱中的晃动噪音，研究的目标是创造更安静的油箱。所提出的CNN的识别准确率约为94%。Mei等人⁵²研究了一种机器人辅助超声检测系统，该系统使用跟踪扫描成像方法来提高超声图像的检测覆盖率和对比度。他们提出了一种视觉几何深度学习网络来优化重建的超声图像。结果表明，所提出的方法在不牺牲效率的情况下提高了重建超声图像的分辨率。

F. 室内声学

Liu等人⁵³使用麦克风阵列作为分类任务在嘈杂和混响房间中进行声源定位。模拟和现实世界的实验结果表明，所提出的深度学习辅助方法可以获得更高的空间分辨率，并且优于其他先进的技术。

Foy等人⁵⁴引入了一种新的监督学习方法，用于估计来自关于建筑声学和现有房间声学诊断的房间脉冲响应（RIR）的平均吸收系数。RIR到吸收映射是通过使用人工神经网络对模拟数据集进行回归来学习的。

Shalev等人⁵⁵引入了图像方法的扩展，用于在具有多个受限空间的结构中生成房间脉冲响应。所提出的方法可以以有效的方式为结构脉冲响应生成大量环境示例，这是当前许多任务的深度学习方法所需的。

De Salvio等人⁵⁸研究了办公室嘈杂环境的问题，并开发了机器学习方法来识别工作时间的人为和机械噪声源。实施聚类技术以获取有关来源数量的信息，然后在统计和度量特征的帮助下对其进行标记。

Tsokaktsidis等人⁵⁹研究了乘用车的噪音。他们使用人工神经网络来预测不同操作条件下车辆的内部噪音。与测量传递函数和对噪声进行数值建模的标准做法相比，他们的方法准确且具有成本效益。

G. 音乐声学

Colonel和Reiss ⁵⁶开发了一种方法来检索用于仅使用原始乐曲创建多乐曲混音的参数；呈现立体声混音。该方法能够模拟线性时不变效果，例如增益、声像、均衡、延迟和混响。Pujol等人⁵⁷使用了一种多分辨率深度学习方法，该方法允许对麦克风阵列捕获的未处理时域声学信号中包含的信息进行编码。结果表明，在存在噪声和混响的情况下，波束学习方法在定位精度和计算效率方面优于宽带MUSIC和定向响应功率相位变换方法。

Hawley和Morrison ⁶⁰提出了一种基于CNN的模型，用于检测和计数来自盘振动图像的电子散斑图案干涉测量（ESPI）帧的振动图案。为了收集数据，从Zooniverse Steelpan振动项目（ZSVP）众包了大约1200个人工标注的帧⁶⁰。作为替代方法，生成了大量合成帧，并在两组数据上训练了网络。

H. 环境声学监测

Hart等人⁶¹量化了用于远程声音传播的三种机器学习模型的准确性，同时考虑了大气湍流。合成数据集由抛物线方程模型生成，用于训练和测试三种机器学习算法。研究了这些模型相对于实验性远程声音传播数据集的误差。Gontier等人⁶²提出了一种用于环境声学监测的两阶段方法。在自监督阶段，他们在来自声学传感器网络的未标记频谱图上制定了一项任务。另一方面，在监督阶段，他们在合成场景上制定了多标签城市声音分类的下游任务。他们得出的结论是，训练集合成比自我监督学习更有利于监控性能。

Chen等人⁶³提出了一种用于声学场景分类(ASC)的长期小波特征，它可以捕获有区别的长期场景信息。实施了数据增强方案，改进了ASC系统的泛化。在参考文献⁶⁴中，提出了两种方法，可以自动识别稀疏波束形成图中的气动声源并提取其相应的频谱，以克服手动定义感兴趣区域的问题。两种方法都被发现对统计噪声具有鲁棒性，并预测了源存在、位置和空间概率估计。

在参考文献⁶⁵中，实施了非负矩阵分解以连续估计风力发电机的噪声影响，而不会中断其功能。这有助于有效表征风电场的噪声影响。

I. 事件检测与增强

Ekpezu等人⁶⁶表明，使用CNN和长短期记忆，声学信号可有效分类和潜在地检测自然灾害。