声学楼人物｜专访声学楼十八周年年会嘉宾南京大学卢晶教授-音频行业的产学研结合之路（上）- 大数跨境

首页

声学楼人物｜专访声学楼十八周年年会嘉宾南京大学卢晶教授-音频行业的产学研结合之路（上）

声学楼论坛

2023-10-24

导读：现任南京大学物理学院声科学与工程系副系主任、南京大学——地平线智能音频联合实验室主任

卢晶，教授，博导。现任南京大学物理学院声科学与工程系副系主任、南京大学——地平线智能音频联合实验室主任，以及中国电子学会/中国声学学会——声频工程分会副主任委员。主要研究方向为声场调控和声信息增强。发表论文和专著章节超过150篇，其中包括声学领域顶刊美国声学学报（J. Acoust. Soc. Am.）论文20篇，2016年获评为中国电子学会优秀科技工作者。7次担任声学领域顶尖国际会议（ASA、InterNoise、ICSV）分会主席，并于2018年受邀同时担任ICSV2018和InterNoise2018的国际科学委员。主持国家自然科学基金3项，主持与国内外知名企业的合作研究课题多项，研究成果已广泛应用于华为、三星、中兴、小米、科达科技、YAMAHA、HARMAN、PHILIPS等国内外知名企业的产品中。

卢老师曾经负责过多个与企业的声学合作项目，能否分享一个您印象最深的案例呢？

卢老师：我们课题组与工业界的合作由来已久，早在20多年前，我们就与摩托罗拉上海研究院进行了合作。摩托罗拉是当时市面上最优秀的手机品牌之一，它关注的研究内容很多都具有很强的前瞻性。我们当时有一项很有意思的合作内容：试图在手机上采用主动噪声控制（ANC）解决通话隐私的问题——通过ANC的方法来做降低说话人向外辐射的语音声压级。摩托罗拉这个想法即便放到现都挺超前的，我们的合作也验证了理论上的可行性。在当时看来，这个技术最后要付诸实施时受到的制约还是比较多的，一个主要问题是：手机上的扬声器尺寸太小，低频辐射效率不足以达到有效控制的目的。不过随着电声技术的不断发展，现在的微型扬声器相比于20年前，性能有了长足的进步，这项技术未来的商用化还是值得期待的。

除此之外，我们还与摩托罗拉进行了其它的合作，包括适用于手机的双传声器语音增强。我们算最早开展这个领域研究的课题组之一。后来，我们还陆续跟华为、中兴、三星、瑞声等国内外知名企业有过多轮合作，保持了良好的合作关系，很多研究成果最后都由公司实现了产品化。

当时的合作方式普遍是项目制，企业根据产品中的技术难点，拟定一个问题由高校来协商解决。项目制的好处是效率较高，但缺点是延续性较差。比如我们按照科研的思路，设计了一个较好的算法模型，由企业转化成产品，但是项目结束以后，这个方向新的技术发展，就很难体现在企业的产品里了。

所以我们现在的合作模式进行了一些调整——鼓励平台级的合作。

目前南大一个比较成功的案例是和地平线机器人的合作。地平线机器人是全球人工智能芯片领域的顶尖创业企业，它的车载智能芯片，已经部署在国内多款量产明星车型上。地平线是车载人工智能芯片层面目前国内唯一能够与Nvidia、Mobieye等顶尖国外公司竞争的企业。

我们与地平线的合作早在2016年就已开始了，在2018年正式成立了南京大学——地平线智能音频联合实验室。这是一个平台级的合作，它并不局限于某一个项目或者某一个技术点，关注的是整个智能音频的大方向。我们会关注围绕智能音频的所有研究点。目前一个成功落地的案例就是2019年底跟地平线语音团队一起合作设计了一个完整的语音前端HISF（具体可参考5月10日发送的文章：智能音箱语音前端技术概述）。这是国内第一家能够通过Amazon Alexa Qualification认证的方案。

Alexa的语音识别系统，目前在国外应该是用户最多的，因为Amazon公司的智能音箱echo拥有巨大的国外市场。Alexa部署在云端的识别引擎，除了为Amazon公司服务以外，也对外开放，为类似哈曼、索尼、雅马哈等音频产品企业服务。Amazon对于想接入Alexa语音识别系统的设备有严格的认证标准，早期的Alexa Certification认证级别相对较低，能通过认证的企业很多，但后来认证的标准拔高成Alexa Qualification，对技术供应商的能力要求一下子提升了不少。我们合作的方案是国内第一家通过这个认证的，我觉得技术落地能做到这一步是很有价值的。

这个方案也得到很多公司的认可。目前全球有个上千万台智能语音交互设备都在使用这个方案，客户包括小米、腾讯之类的头部互联网公司，也有雅马哈、哈曼等知名音频公司。基于这个方案，我们还为国内造车新势力理想汽车设计了语音交互前端处理系统，这是最早实现全车多音区分区控制的系统。

我们跟地平线的合作第一期是三年，现在正在沟通下一阶段的工作，会重点围绕车载音频这个大方向开展一系列新技术的研究。这类平台级的合作，从上游的研发角度来看，新的技术进步，可以通过与企业的紧密合作高效率转化成技术领先的产品。这种合作模式我认为是一个比较理想的高校和企业的合作关系。

之前看到您的学生在声频大会上讲过使用深度学习进行语音增强的方法，您觉得传统信号处理和深度学习的方法，应该是一种什么样的关系，是一个必须要打败另一个吗？

卢老师：这个问题其实工业界与学术界确实都有较大争议。现阶段深度学习在语音处理中确实是最热的话题，如果你去参加ICASSP或者INTERSPEECH这样语音领域公认的顶会，你会发现涉及语音增强和分离的一些分会，大多都在讨论如何改善网络模型提升语音增强和分离的效果。但是大的趋势我个人比较看好融合方案，这两者并不是非此即彼的关系，一定要另一个打败，它们各有特点。

信号处理方案属于典型规则驱动的方案。这种方案的好处就是整个系统输出相对比较稳定，并且可预测性较好，理论解释相对来说也比完备。但弱点是应对复杂场景存在困难。比如对单通道语音增强，如果干扰噪声的非稳态特性非常明显，信号处理方法就很难获得有效增强效果。

深度学习属于数据驱动的方案，如果网络模型合理，训练数据到了一定的量，系统就会有不错的表现。但是弱点也是比较明显的，就是可解释性相对会差一点。在一些训练数据没有覆盖的场景下，其表现有可能存疑。当然，深度学习的可解释性，本身在人工智能基础研究方向上也是个大命题。

就语音增强而言，我觉得这两个处理方法有很强的互补性，融合策略应该是比较有前景的方向。以传声器阵列处理为例，信号处理领域的方案比较成熟，能有效融合阵列特有的时间、频率和空间三个维度的信息，但算法设计上一般还需要对信号和噪声模型做一个先验假定，这制约了它在复杂场景下的性能。深度学习的建模和拟合能力在单通道增强中已经得到了充分验证，但目前还没有很好的方法把阵列的空间信息用起来，或者即便有，网络也是重度依赖阵列结构的，缺乏对不同结构的适应性。如何把深度学习的建模能力有效融合到阵列算法中，是学术界和工业界都很关心的话题。

融合处理的重要性，我在声学大会做报告时也做了强调。刚才我们提到的是算法的融合，其实我们在做音频处理的时候还有更多可以融合的内容，比如不同传感器的信号可以融合。

现在很多性能优异的TWS耳机，在做语音增强的时候，不只用到了传声器信息，还借助加速度传感器获得说话人的骨导传感信息，借助这个信息，一方面可以提升VAD准确度，一方面可以为神经网络提供更多的辅助信息，实际上这已经有多传感的概念在里面了。

再进一步，我们还可以在处理音频的时候，把视频和图像信息融合进来。比如中科院声学所杨军老师课题组所做的降噪头靠，通过加入红外传感的方式追踪人头的移动，在次级通道的追踪上可以做得更好，进而提升有源噪声控制（active noise control, ANC）的性能。南安普顿大学也有类似的工作，只是他们用的是图像处理的方式去追踪人头移动。

降噪头靠

近期悉尼科技大学（University of Technology Sydney, UTS）邱小军老师课题组的一个工作也很有意思——邱小军老师以前在南大后来去了UTS。在耳廓粘贴一个光学传感器替代ANC系统的误差传感器，可以把ANC的频带上限拉高到4kHz甚至5kHz的高频段。这同样可视为融合传感的应用。

类似的不同传感器的融合策略，在信号增强这个领域，我们专门有个术语去描述它叫多模（multi-modal）处理。

多模处理目前在学术界很热，在语音增强领域， IEEE的期刊和ICASSP这样的会议，有大量相关论文，不过目前真正能够落地的应用案例并不是很多。

这一块儿我感到比较高兴的一点是刚才提到的地平线的合作。地平线给长安汽车的明星车型UNI-T不仅提供了车载AI芯片，还提供了完整的车内语音增强方案，用的就是融合了声学传感与图像传感的多模方案。根据我们的信息，这是第一个能够成功实现商业落地的多模方案。这类方案在产品性能上确实能达到单一传感器无法企及的高度。

长安汽车UNI-T（图片来源：长安汽车官网）

您对目前的不管是正在学习专业的学生也好，或者是已经从事这个行业一些年的从业者也好，有什么工作或者学习上的建议？

卢老师：我个人认为顶尖的高校和研究机构在读的学生，有两条是要重视的。第一是数理基础要足够好。上游的数学知识——尤其和算法紧密结合的数学知识，要充分关注。在做算法设计分析和实现的过程中，多问自己几个为什么，往往就会发现要追溯的上游数学知识浩如烟海。

我们这个领域和机器学习是高度相通的，就声频信息处理本身而言，声学基础、线性代数、数字信号处理以及概率论和随机过程都是必须熟练掌握的基础课程。扩展到机器学习领域，如果希望对算法的理解足够深刻，除了经典的机器学习教材，必要的群论和黎曼流形的知识也需要补充。

我举几个典型的例子。第一个就是ANC和语音增强常用的自适应算法——最小均方误差算法（least mean square, LMS），它所对应的基本公式来自于梯度下降，只不过把期望操作去掉，梯度下降变成了随机梯度下降。一般会认为用代价函数对每个自变量求偏导，用偏导构成了一个矢量，就算出梯度了。但这个理解，从数学角度看是错误的。如果我们掌握微分几何的基础知识，就会发现真正的梯度与偏导构成的矢量所对应的空间是不一样的，一个是tangent space，一个是cotangent space，这两个空间所对应的测度的描述是完全不同的。

为什么求偏导去构成梯度的方式在很多场景下是可以用的？是因为我们一般理解的参数空间是一个欧式空间，在欧式空间内还建立了笛卡尔坐标，这个时候这两个空间所对应的数学特性是高度一致的。参数空间如果不是欧式空间，这样用肯定不妥，往往会导致收敛特性的弱化。为了解决这个问题，信号处理上我们可以选择自然梯度下降（natural gradient descent）算法。自然梯度的计算过程实际上就是把偏导计算结果所构成的矢量映射到准确的梯度上。这个映射的过程，我们可以通过条件优化的方式推导，但如果数学基础足够好，你会发现这个映射在微分几何上是一个非常平凡的结论，可以直接列出公式，只不过这个公式背后所蕴含的数学原理相对复杂一点。我觉得这是一个比较有价值的例子，也是与我们做声信息处理算法研究息息相关的一个内容。

第二个例子，我们在做声频处理的时候，算法经常是在频域实现的。传声器采集到的信号对应的是一个时域信号，变换到频域则立刻变成了复数信息。理论上来说，复数信息和实数信息在空间上有很强的映射关系。复参数可以从酉空间角度去理解，它与我们熟悉的欧几里得空间有一个同构关系，但两者有维度的差异。我们在对复数分布使用换元法时，它所对应的变换矩阵映射到欧式空间会转换成一个分块的循环矩阵。注意到这个特性，你会发现描述复数分布换元的公式，形式上和实数分布换元的公式一致，但存在一个细微的系数差异。这一点在很多算法分析的文献里大家是没有注意到的。

第三个例子，声频技术里面一类典型的问题叫盲源分离，解决鸡尾酒会效应（cocktail party effect）的问题。这个领域现在很多人都关注深度学习端到端的方法，但如果我们用传声器阵列处理这个问题，经典的独立分量分析及其各种衍生变体也是很好的。这类方法依赖于信号的独立特性，对应的算法会牵涉到矩阵优化的操作，而相应的矩阵构成的空间往往可以从群或流形的角度去理解。如果传感器数量和声源数量保持一致，那么矩阵是一个方阵。一般我们处理的问题都是可逆的，那对应的就是一般线性群。如果对信号做了空间上的白化处理，对应的矩阵空间就是正交群。这两个群都是最典型的李群。如果传感器的数量与声源数量不同，我们不能用群的角度去理解矩阵变换，但可以用流形的观点去理解，比如Stiefel或non-compact Stiefel流形。熟悉群论和流形的数学基础，对于我们深刻理解算法是很有帮助的。

除了良好的数理基础，第二是要重视编程能力的培养。我们这个方向应用背景极强，可听声领域几乎所有我们能想到的与应用都包含在我们这个方向。而大部分的应用最后都要通过DSP、ARM、FPGA以及最新的AI芯片来实现，编程能力不足必然会制约算法的实现效率。

从基本的算法原理到最终实时系统的实现，整个链条很长，对从业人员的要求很高，在技术上要建立起自己的护城河，付出的时间精力肯定是很多的。

内容来源：21dB声学人（未完待续）文稿来源于21dB声学人21年5月的访谈