声学楼人物｜专访声学楼十八周年年会嘉宾南京大学卢晶教授 -音频行业未来之路（下）

声学楼论坛

2023-10-31

万众瞩目，众望所归！对中国音频行业的发展产生巨大影响与推动作用的2023年声学楼十八周年年会即将于2023年12月16-17日在深圳会展中心盛大举行。

声学楼论坛作为国内音频技术专业等级最高、历史最悠久、用户量最多、覆盖面最广、深受行业关注与高度认同的声学技术交流平台，与中国音频行业共同成长十八年，影响深远。

2023年声学楼十八周年年会将致力于展现全球声学领域最新技术与应用，必将引领声学产业新的潮流，与我们共同迎接智能音频科技最新发展。

继上篇卢老师讲述了有关声频行业的产学研结合之后，今天继续为大家带来卢晶教授专访的下篇——关于音频行业的发展趋势。

声学楼人物｜专访声学楼十八周年年会嘉宾南京大学卢晶教授-音频行业的产学研结合之路（上）

卢晶，教授，博导。现任南京大学物理学院声科学与工程系副系主任、南京大学——地平线智能音频联合实验室主任，以及中国电子学会/中国声学学会——声频工程分会副主任委员。主要研究方向为声场调控和声信息增强。发表论文和专著章节超过150篇，其中包括声学领域顶刊美国声学学报（J. Acoust. Soc. Am.）论文20篇，2016年获评为中国电子学会优秀科技工作者。7次担任声学领域顶尖国际会议（ASA、InterNoise、ICSV）分会主席，并于2018年受邀同时担任ICSV2018和InterNoise2018的国际科学委员。主持国家自然科学基金3项，主持与国内外知名企业的合作研究课题多项，研究成果已广泛应用于华为、三星、中兴、小米、科达科技、YAMAHA、HARMAN、PHILIPS等国内外知名企业的产品中。

您认为学术研究和产业化是怎样的一个关系？其实第一个问题也提到了共建一个平台，对平台级的合作比较好，除了共建平台，您觉得还要在还有没有一些或者某种比较合适的方式？

卢老师：除了校企合作的方式，我觉得中科院这个体系也很好：既重视研究，同时对产品落地也很关注。学而优则商，欧美那些名校的很多教授都身兼技术型企业的创始人。

去年诺贝尔化学奖颁给两位女性科学家，她们既是顶级的研究人员，同时技术孵化工作也做得很好，都是美国纳斯达克上市公司的创始人。

当然，考虑到上游基础研究和实际产品的跨度特别大，因此这类产学研一体化的方式，对人员体量要求会比较高，要让科研人员、工程团队以及商务市场团队形成合力，才能有效推动真正兼具商业价值和学术价值的技术落地。

能否谈一谈未来10到20年，声频技术会有怎样的发展趋势？

卢老师：从整个声学领域来看，声频技术应该是对我们日常生活渗透最多的一个方向。日常生活接触到的大部分可听声的应用，都可以纳入声频技术的范畴。我们谈研究方向以及未来的发展，都要沿着整个可听声的传播链路的来看，传播链路包括声音的产生、辐射、传播，传播的过程中还要增加一些调控策略——ANC就是典型的声场调控，然后再到采集接收。最后声学应用的主要目的是为人服务，因而人的感知在其中也起到了很大的作用，这条链路上有非常多的工作值得关注。

从声学器件层面看最基本的声辐射问题，怎样提升小扬声器的低频辐射效率，一直是很重要的话题。声源在远场辐射的声压级取决于体积速度和频率的乘积。频率低，体积速度必须要大，而振幅大，必然会恶化非线性失真问题。非线性的建模和补偿，我们与瑞声合作设计过完整的方案，在他们的量产扬声器上验证了建模和补偿的可行性和有效性，对应的方法除了在JASA上发表论文，美国专利也获得了授权。但现在的方法实用性还相对较弱，因为准确建模需要对扬声器振膜的振速和位移进行测量，需要使用激光测振仪，很难广泛使用。将来是否有更好的方案，只用基本的电压、电流信息准确跟踪非线性参数，并在此基础上设计更高效率的补偿算法是值得关注的话题。

在采集端，目前优秀的MEMS传声器的信噪比已经做的很好，有些量产传声器的信噪比已经超过70dB，但和测量级的传声器相比，还是有差距的。如果想做更低信噪比的数据测试和分析，或一些微弱信号的检测，那我们对信噪比还有更高的要求。

更进一步，如果我们希望对声场做理想的分解，将来是不是有可能实现一个连续的球阵列？球阵列是做声场正交分解的最理想形式，阵列如果真是连续形式的，那我们就可以把球傅里叶变换所对应的积分表达式准确的用起来。现在的球阵列都是离散化处理的，展开阶数是受限的，声场建模的精度会受制约。

上面说的是器件层面的工作，到了传播层面，我个人认为一个比较难的话题，还是声场。声场的时变性对于大部分声学调控算法来说，都是一个难以克服的问题。声场调控包含很多内容，比如现在火热的ANC应用，比如空间声重放，还有声场的分区控制等。这些细分的声场调控的方向，面临的共性问题是：声场的时变性会使系统的性能受到极大的影响。怎样去跟踪和建模一个时变的声场是一个非常难的课题。在没有合适的反馈通道前提下，声场调控系统本质上都是非因果系统。这有别于采集端的处理——采集端的处理过程中声场变化的历史信息理论上总是会体现在传声器或传声器阵列采集到的信息里。这就意味着，算法只要设计得足够精妙，声场的变化信息是可以追踪的。但在做声场调控时，优化的系统再好，实际声场的模型和优化使用的模型如果不一致，同时系统又没有即时的反馈信息，整个系统的性能一定会大打折扣。

还有大规模阵列所对应的整体优化策略。显然，传感器和换能器的数量越多，调控所能达到的性能上限就越高，但是整个系统的稳定性以及运算资源的消耗会面临巨大的挑战。

另外一个有价值的方向是感知层面的。这一块比较重要的原因我认为有两点：第一，大部分声频技术的处理场景，最后都是以人为本，服务目标都是人。如何更好地刻画人的听觉感知机理，让听音者获得更好的主观感受，这永远是一个有价值的话题。第二，现有的系统和算法相比于人的听觉系统来说，在大多数场景下，性能实际上还是有差异的。比如说语音识别，现有的语音识别系统能在相对安静的场景下达到与一个正常人相仿的识别性能，连续听写错词率可低至3%。但是在复杂场景下，比如存在强干扰的环境或者高混响环境，目前最好的识别系统相比于人的听觉系统还是有明显差距的。从这个层面来看，人的听觉系统给这类声信息处理系统提供了一个非常好的拟合目标。

这个方向的技术进步有赖于心理声学和生理声学的一些新的突破。在声学大会上我列举了几个我认为比较有价值的点。

对哺乳动物的实验表明听觉皮层的感知细胞可以发展出视觉功能；盲人的听音辨位能力比普通人更强，有实验表明盲人在听音辨位时有极大的可能用到了视觉皮层信息。这两个发现给目前火热的多模处理方案提供了非常好的生理层面的注脚。

另一个比较有意思的话题：美国和德国分别有研究者直接从人脑内部提取脑电信号来还原语音。尽管这个研究还比较初步，还原的语音质量不太理想。但它的价值在于证明了生理信号里面确实包含了有效的语言信号。

我们可以想象一下：类似于耳机和助听器这样的音频设备，本身就是典型的靠近人脑的可穿戴设备，未来如果技术发展的足够好，能够有效解决微弱信号检测的问题，把脑部的生理信号拾取出来，那我们在做多模处理的时候，又多了一个有效的辅助信息，它完全可以把声频信息处理的性能再提升一个台阶。

还有几个比较有意思的话题：在噪声环境下，人的听觉系统对于所感兴趣的声信息，有一定的脑补，中间的信息如果断掉或者被噪声完全遮蔽掉，人脑可以对这个信息进行补充。通常我们认为脑补的时间是很短的，在百毫秒量级。但新的研究发现特定场景下的脑补时间可长达数秒钟，这意味着人的听觉系统在复杂场景下是可以实现有效长时预测的。

还有一个信息——有测试表明，在复杂场景下，如果噪声背景发生切换，人脑去跟踪噪声切换的速度是非常快的。这些心理和生理学层面的研究成果对于设计声频信息处理系统都是很有帮助的。

声频技术未来发展的一个重要特点就是跨学科，除了刚才提到的心理生理的研究、机器学习、控制论，甚至音乐学这样的艺术类学科都在声频技术中起到重要作用。

之所以说声频技术与机器学习结合非常紧密，是因为做声频技术的研究时，有一个重要目的，是要提升人或者机器对可听声的感知能力，就是perception。机器学习实际上有一个很重要的目标，是要提升机器的感知能力。单纯从提升感知能力的角度出发，声频技术研究和机器学习研究的目标是高度一致的。

在具体算法上，声频技术与机器学习的契合由来已久的。比如ANC和语音增强方向的从业人员，对自适应滤波肯定很熟悉。自适应滤波的提出者——斯坦福的Widrow教授，也是机器学习领域人工神经网络的先驱。上个世纪60年代左右，他和他的学生提出的Adaline神经网络模型，是机器学习领域公认的神经网络雏形之一。他们为了训练这个网络提出的LMS算法和现在机器学习里广泛使用的随机梯度下降算法（stochastic gradient descent, SGD）理论上完全是一回事。

还有另外一个代表性人物叫卡尔曼（Kalman），Kalman滤波及其变体在音频处理中的应用同样是非常频繁的。Kalman滤波本身就是和机器学习领域的研究内容之一，它还与语音识别常用的隐马尔科夫模型在方程形式上高度一致，区别是Kalman滤波所对应的状态变量是连续的，而隐马尔科夫模型的状态变量是离散的。

如果我们再引申一下，把状态变量和神经网络隐含层参数建立起关联，则Kalman滤波和目前处理音频数据常用的一类神经网络——循环神经网络（RNN）对应的动力系统方程形式上也是一样的。

跨学科其实也是一个融合的概念——不同学科的融合，而我们多次去讲融合，这个融合其实是多维度的。除了已经提到的处理方法的融合、不同传感信息的融合以及不同学科的融合，还有处理目标的融合。以声场调控为例，我们做声重放、有源噪声控制、声场分区控制，本质上用的器件、系统甚至算法都是高度相似的。将来这些系统完全可以融合在一起，整体优化还可以充分考虑人耳的听觉感知特性。我个人的观点：以融合的观点，用融合的策略对可听声的生成、辐射、传播、调控、接收和感知整个链路的各个技术点进行升级优化，是未来声频技术发展的主旋律。

内容来源于21dB声学人2021年5月的访谈

今年恰逢声学楼创办18周年。18年来，声学楼已逐渐发展到涵盖数十个方向迄今为止举办了800多场技术论坛，近千余位国内外讲者积极参与，累计超过13000人注册的音频领域年度盛会。十八载不断超越，作为国内音频技术领域参会人员众多，规模大，水平高的年度盛会，18年来将精心筹划，为参会者带来一场前沿碰撞、展望未来的技术盛宴，让每位参会者都能在声学楼这个超大体量专业平台上提升自身的专业价值，获得前行的动能！等你来，马上行动，欢迎参会报名音频产业盛会！