今日声学|乐器的声音合成：基于物理建模还是机器学习？- 大数跨境

两江科技评论

2020-09-12

导读：通过物理建模所产生的声音包含由真实乐器发出的声音的所有细微的音频信息。

《今日声学（Acoustic Today）》是美国声学学会创办的面向专业与大众读者的专业科普杂志。杂志为季刊，大多数文章以约稿形式向业内人士征集，尤其是前沿的声学家、第一线的声学工程师、跨学科跨领域的科学家。此外，《今日声学》作为美国声学学会的会刊也定期发布声学界的各类新闻、短评、采访、讣告，是美国乃至全世界声学工作者的一个交流平台。

原文标题： Synthesis of Musical Instrument Sounds: Physics-Based Modeling or Machine Learning?

作者： Scott H. Hawley(贝尔蒙特大学化学&物理系), Vasileios Chatziioannou(维也纳音乐与表演艺术大学音乐声学系), Andrew Morrison(乔利埃特学院自然科学系)

编译：赵涵（南京大学现代工程与应用科学学院）

校对：邹林洋（南京大学光声超构材料研究院）

前沿

音乐声学是一个多元化的科学领域，涉及乐器制造和声音感知等。音乐声学的一个重要问题是：这些乐器是如何发出各自独特的声音的？乐器的可靠物理模型的制定是在微分方程领域的发展之后进行的，而数字声音合成在数值分析和计算机科学进步之后才出现。对乐器进行数字化建模的能力为音乐创作者提供了多种理想的性能，包括便携性、灵活性、高信噪比、自动化控制、可重复性以及受限少等。

构建这种虚拟模型主要有两种方法。一是物理建模，二是神经音频合成（NAS）。物理建模是描述乐器发出声音的过程，模拟可以预测的乐器部件和空气振动，以及使乐器发出声音的所有物理过程。神经音频合成是机器学习与信号处理技术的结合。目前强大的机器学习方法均采用人工神经网络，它可以被视为一组曲线拟合近似的方法，在矩阵操作之间使用一系列的“层”矩阵乘法与非线性函数。当有许多层时，模型被称为“深度”神经网络，其训练被称为“深度学习”。深度学习在音频合成中的应用被称为NAS。这种方法的目的是捕捉乐器发出声音的突出部分，而不考虑声音是如何发出的。

本文着眼于在乐器声音合成的研究下对这两种方法提供更新，这些方法也适用于其他声学领域。

一、物理建模

关于声音的物理建模的早期尝试是由Kelly和Lochbaum(1962)做出的，通过模拟人类声道来进行语音合成。直到20世纪80年代，才发展出了各种适合于乐器仿真的方法。早期的数字声音合成法产生于20世纪50年代，使人们在没有乐器的情况下产生音乐。如今它们在电声作曲领域仍然很受欢迎，但它们不能对数字乐器提供实际的控制。

物理建模的另一目的是为了模拟乐器声音产生的机制。通过物理建模所产生的声音包含由真实乐器发出的声音的所有细微的音频信息。此外，物理建模提供了用从自然发出的声音来估算模型参数的可能性。这些参数可以与特定的演奏技巧联系起来，因此可以用来揭示不同乐器和不同演奏者之间的差异。

我们对乐器的功能已有详细的研究，包括对音乐声学中复杂非线性现象的分析，比如木管乐器中的激发机制。通过求解乐器振动的（偏）微分方程，可以进行乐器的时域模拟。大多数文献中使用的算法都是基于有限差分或密切相关的方法。数值分析技术在模拟领域仍有待进一步研究。

在一场艺术表演中可以以不同的方式激发乐器的振动，而数值模拟中经常使用理想的初始条件和边界条件，这不能反映演奏者对乐器的控制。研究演奏者与乐器之间的持续相互作用可以改良物理模型，使各种演奏手法的建模成为可能。

以单簧管木管乐器为例，在演奏中，音乐家们使用的发音技巧大多涉及舌头和振动簧片之间的相互作用。为了捕捉这种相互作用，在建模对应的单簧激发机制的方程中增加了一个非线性项，这个非线性项包括在乐器驱动端发生的另外两个非线性过程，即簧片和吹口之间的碰撞、和通过簧片进入吹口的气流。这一激发模型可以与描述波在圆柱管内传播的线性模型耦合，进而得到有关管内压力和流动的信息，同时还可以反映极端辐射压力和簧片状态。

为了验证这个演奏者-乐器交互模型，将数值合成的信号与一个人工吹风机（图1）和真人演奏者（图2）产生的信号进行比较。模拟结果与实验结果的吻合说明了音符转换中的所有重要物理现象均被物理模型准确捕捉，且该模型能够定性地再现由专业音乐家演奏的一段乐曲。

图1：A：单簧管木管乐器的人工吹奏机。B：吹奏机的草图（俯视图）。C：为断音（单个音符通过静默与其相邻音符分开）和波尔图（音符通常是持续的，通过使用舌头实现某种分离）来测量和合成的烟嘴压力的示例。

图2：左：带乐器的单簧管吹嘴，用于与人类演奏者进行测量。两个压力传感器用于测量乐器内部（吹嘴压力）和演奏者口腔内部的压力（吹气压力）。应变仪用于监测簧片的振动。右：测得的和合成的吹嘴压力，摘自韦伯的单簧管协奏曲第1号。

二、神经音频合成（NAS）

与物理建模相比，NAS方法致力于使乐器录制的声音和由深度神经网络合成的音频的差异最小化。NAS模型的建立不需要基于明确的物理模型，而是需要事先录制的音频来充当“训练数据集”，以此来优化模型的输出。NAS模型可以学习声音的替代参数，而不是依赖于物理上的相关控制参数。

NAS体系结构主要采用编码器或生成对抗网络（GANs）的形式。这两种架构的特点是“无监督”（或“自我监督”）的学习模型，对于这种模型，算法不需要人为标注其数据集。

2.1自动编码器方法

自动编码器是一个被训练来重新产生输入的深度神经网络，由排列在编码器-解码器对中的多层人工神经元组成。自动编码器的“沙漏”形状迫使模型“学习”压缩的参数设定，通常被称为“潜在空间表示”（图3）。然后可以稍微改变这一简化的编码特征集，并将其解码以合成新的音频形式，也就是说，可以单独使用解码部分作为合成器。编码器和解码器可能由一个或多个神经连接层组成，可以支持不同层次的建模复杂性。自动编码器的输入和输出可能是原始音频波形，即所谓的“端到端”模型，但更典型的是通过短时傅里叶变换（STFTs）或相关变换得到的振幅谱图。

图3：自动编码器方法的示意图，其中神经网络的输出频谱图近似于其输入频谱图。在这里，我们展示了在频谱图上运行的完全连接的神经网络层，而其他自动编码器则使用更复杂的网络体系结构（例如循环或卷积神经网络层）并直接在原始音频上运行。

Google Magenta研究小组创建了一个端到端自动编码器模型NSynth。该小组在一个非常大的乐器声音数据集上训练了两种不同的自动编码器模型。他们比较了上述类型的基线谱自动编码器和使用波网结构的自动编码器的性能，发现后者在音质、脉冲瞬变、音色和动力学方面有显著优势。这些属性的潜在空间编码提供了融合多种乐器声音的可能性。NSynth合并声音的能力使得音乐家可以实时插入声音并生成新的声音组合。

如上所述，可以改变和解码自动编码器中的潜在空间表示以合成新的声音，然而，不同类型的声音可能与潜在空间的不相交区域相联系，使得乐器之间的插值显得奇怪。此外，对给定的潜在特征集的解码每次都是相同的。为了保证乐器声音的多样性，自动编码器范例可以改变模型输出音频特征的概率分布，使其成为潜在空间特征的概率分布的函数。这种系统称为变分自动编码器(VAEs)。VAEs可用于另一类生成模型，该模型同样模拟声音的概率分布，但免除了自动编码器的形式，这就是下面介绍的生成对抗网络（GAN）方法。

2.2生成对抗网络(GAN)方法

近年来出现的用于生成合成数据的例子是GAN，GAN可以被看作是两个相互竞争的深度神经网络，网络的其中一个部分是“生成器”，用于合成新数据，另一部分是“鉴别器”，鉴别输入的数据是来自生成器还是预先录制的数据。鉴别器的输出被用来训练生成器，因此输出的数据会越来越接近预先录制好的音频（图4）。

图4：生成对抗网络（GAN）的概述，一种在两个神经网络之间进行的“模仿游戏”：一种称为鉴别器的二进制分类器，旨在通过正确地“猜测”其输入来自乐器录音数据集还是一个正确的数据还是合成的“伪造品”来进行改进。生成器使用来自鉴别器优化过程的信息（例如，梯度的负值）来合成越来越“令人信服”的乐器声音。

GANs最初是被用于图像合成，直到2018年才被用于乐器声音的合成，研究以一篇题为“In this paper we introduce WaveGAN, a first attempt at applying GANs to unsupervised synthesis of raw-waveform audio”的文章发表了这部分内容。WaveGAN模型是用于图像合成的二维卷积的一维版本，文章中提出了另一种模型“SpecGAN”，对已有的GAN对图谱进行操作。尽管SpecGAN能产生更易识别的人类语音，但WaveGAN因其优良音质和声音多样性受到人类听众的喜爱。

结合NSynth和WaveGAN的成功，并加入新的改进，建立了GANSynth和TiFGAN这两个相似的新模型，是乐器声音NAS的最先进水准。一个改进是通过更多的帧重叠增加STFT输出中的频域。另一个改进是在神经网络中使用“瞬时频率”，即STFT产生的相位的时间导数。

与基于WaveNet的方法不同，GANSynth会同时生成整个音频片段，因此对模型的训练和新样本的生成要快得多，有望实现实时生成样本，但对于它是否能适应可变长度的输出还有待考究。

总结

本文对两种乐器声音合成的方法进行了更新。物理建模依赖于求解由乐器工作过程和音乐家演奏时的身体结构的数学模型组成的方程。除了产生音调的应用之外，物理建模还可以用于提供具体和详细的预测，并与真实现象进行比较，以测试物理模型本身的有效性和相关性，或是否需要在模型中加入额外的现象。

另一种近年来获得欢迎和成功的方法是让深度神经网络通过使用大量的音频记录语料库来自动进行自我学习。一旦经过训练，他们可以很快地运行，并实时生成任意数量的变量，而不需要再创建一个包含所有过程的新物理模型。

物理建模和神经网络音频合成都提供了可行的途径来合成“真实”的乐器声音，选择哪一种方法取决于研究者的经验和偏好。

戳“阅读原文或二维码”查看英文文献

文章链接

https://acousticstoday.org/synthesis-of-musical-instrument-sounds-physics-based-modeling-or-machine-learning-scott-h-hawley-vasileios-chatziioannou-and-andrew-morrison/

免责声明：本文旨在传递更多科研资讯及分享，所有其他媒、网来源均注明出处，如涉及版权问题，请作者第一时间后台联系，我们将协调进行处理（按照法规支付稿费或立即删除）。转载请注明出处，如原创内容转载需授权，请联系下方微信号。

【声明】内容源于网络

两江科技评论

聚焦“光声力热”超构材料、凝聚态物理、生物医学、智能制造等领域，打造科研人便捷的交流平台，发布优质新鲜的科研资讯。

内容 6001

粉丝 0

两江科技评论聚焦“光声力热”超构材料、凝聚态物理、生物医学、智能制造等领域，打造科研人便捷的交流平台，发布优质新鲜的科研资讯。

总阅读15.3k

粉丝0

内容6.0k