Science Advances：声超球面，逖听远闻！- 大数跨境

首页

Science Advances：声超球面，逖听远闻！

两江科技评论

2022-10-01

导读：上海交通大学机械与动力⼯程学院张文明教授课题组和密⻄根学院邵磊教授课题组

欢迎课题组投递中文宣传稿，投稿方式见文末

撰稿|由课题组供稿

导读

“若伏在地下，⼀霎时，将四⼤部洲⼭川社稷，洞天福地之间……可以照鉴善恶，察听贤愚。”

神话传说中，谛听是地藏菩萨的通灵瑞兽，技能是超凡的“听觉”，能⽤来辨认世间万物，尤善听⼼。《⻄游记》中，它⼀听便知“真假美猴王”。

“物竞天择，适者⽣存。”

在⾃然界中，也有⼀位听⾳辨位的⾼⼿——猫头鹰。它们利⽤双⽿不对称性（耳孔⾼度、耳道宽度、敏感频率）来判断声⾳的⽔平⽅向和垂直⾼度。猫头鹰在⿊夜中搜寻猎物时，它对声⾳的第⼀反应是转头。270度的⼤范围转⻆使它可以⾃由控制声波到两⽿的时间差，⼀旦超过30ms，猫头鹰就能准确定位声源⽅位。同时，它独特的“凹形”⾯部，可以帮助引导声⾳到⽿朵开⼝处，像放⼤器⼀样收集声波。

近⽇，上海交通大学机械与动力工程学院张文明教授课题组和密西根学院邵磊教授课题组合作研究了声学超球⾯声⾳传感器，基于局域共振和波束形成原理，成功将物理智能和超材料体系相融合，展示了全向声能采集、压⼒放⼤、声源追踪、⾳频克隆和语⾳识别等多项功能，即使在强背景噪声环境中也能定位和识别相邻⻆度的⼈声。相关成果以“A wave-confining metasphere beamforming acoustic sensor for superior human-machine voiceinteraction”为题，发表在国际顶级期刊 Science Advances 上。课题组博士生马珂婧和陈虎越为该⼯作的共同第⼀作者，张⽂明教授和邵磊教授为论⽂的共同通讯作者。

研究背景

配备⾼效⼈机交互（HMI）技术的智能机器⼈系统对于探索、社交与合作⾄关重要。对话是与⼈交流最常⻅和最轻松的⽅式，基于语⾳的⼈机交互界⾯具有强⼤的声源追踪、语⾳识别和情感感知能⼒，是新⼀代智能机器⼈传感系统的重要发展⽅向。这⼀技术需要同时具有超⾼信噪⽐（SNR）和灵敏度的声学传感器，以在噪声环境中精确识别所需的⼈声，并具有三维波束形成能⼒来定位和追踪移动声源。

⽬前商⽤⻨克⻛多依赖于驻极体及其阵列，灵敏度较低，需要前置放⼤系统，整体功耗较⾼，⼈机交互体验通常并不理想。此前，新兴的薄膜声学传感器虽然展现出超⾼的灵敏度和柔顺性，但牺牲了⼀定的信噪⽐（噪声激发的电信号同样更⾼），且仍⽆法解决声波在空间内快速耗散的根本问题。

声学超材料拥有调制和操纵声波的⽆限可能性，能展现出⾃然界不存在的全新物理特性。近年来，超材料系统已被证明能通过物理智能结构实现声⾳的放⼤和分离。然⽽，它们难以实现⼈声范围内的编码和解码，从未同时展现⾼信噪⽐和灵敏度，且往往需要繁琐的算法来定位声源，导致其⼯程可靠性和实际应⽤场景受到严重限制。

研究亮点

1. 我们提出了“声学超球⾯ acoustic metasphere”的概念，构建了正⼗⼆⾯体（Schläfli symbol {5, 3}）的声学超材料，每个⾯中⼼位置的压电薄⽚⽤于采集全空间内的声振信息。

2. 基于局域共振原理，我们将声波约束在中⼼点缺陷位置，引导并放⼤声波。最终可以获得两倍于发射端的声场强度，在远距离感知场景下完全弥补声波在空间的快速、⼤幅耗散。

3. 通过设计超材料单胞、超胞、基板的材料和尺⼨，我们将主共振频率调整到⼈声范围内，并通过多个次共振峰拓宽其相应频带。

4. 创建了新的评价体系，⽤于统⼀衡量声学传感器的信噪⽐和灵敏度。

5. 结合波束形成和机器学习，我们进⼀步实现了声源追踪、⼈物区分和语⾳识别等多种⼈机交互功能，并完成了诗朗诵、钢琴曲的⾼保真克隆、复现和实时识别。

6. 声学超球⾯系统可以⽤于会议协助和⼯⼚搜救。不仅可以识别空间内相邻⻆度同时发声的多位⽤户，⽽且能够准确识别并追踪被机械噪声淹没的⼈声。

本⼯作从最基础的局域共振机理出发，利⽤物理智能构建了多功能全向声学超球⾯传感器，结合增材制造和机器学习优化系统构造，最终提供多场景卓越的⼈机语⾳交互，为声学超材料传感系统的应⽤开辟了新道路。

图文解析

图⼀：声学超球⾯的设计概念和机制。（A）基于声学超球⾯传感的机器⼈系统，包括它的主要功能和超胞设计。（B）超材料板的声波频率-波数⾊散关系，显示了声学伪带隙（灰⾊阴影区域）和嵌⼊的共振频率（蓝⾊），包括平⾯外振动和两个快速⾯内模式。（C）三种声学传感器的声压分布对⽐图，包括压电薄板、球形阵列和声学超球⾯。其中，声学超球⾯表现出引导、约束并放⼤声压的特性。

图⼆：正⼗⼆⾯体结构和声学超球⾯的空间全向波束形成特性。（A） 11个超材料板的平铺图，底部⾯为⽀撑结构。（B）相邻⾯超材料板的相对⻆度。（C）声学超球⾯的电压-频率响应图谱，表现为⼀个主共振峰和多个次共振峰组成的宽频特征。（D）&（E）声学超球⾯的全空间响应，不同⼊射声波对应的归⼀化能量图谱。

图三：声学超球⾯的⽅位⻆、灵敏度和信噪⽐。（A）声源⼊射⻆度变化时，1号平⾯的响应逐渐减弱，同时，4号平⾯的响应逐渐增强。实现了物理层⾯对空间内声源⽅位⻆的解耦。（B）声学超球⾯的可调节、⾼线性的灵敏度。当声源较近时，我们可以适当降低灵敏度以提升⾳频保真度；当声源较远时，我们可以选择⾼灵敏度以获得更多信息。（C）不同声压下的电压响应，插图表现标准声压 94 dB SPL 下的信噪⽐。（D）商⽤⻨克⻛和新型声学传感器的性能总结表格。电容和压电式仅保持⾼信噪⽐，摩擦电式仅具备⾼灵敏度，声学超球⾯同时实现⾼信噪⽐和灵敏度。

图四：基于声学超球⾯的会议协助系统。（A）⽤户声⾳特征提取和身份识别；红⾊表示⼥声，相对⾼频；蓝⾊表示男声，相对低频。（B）相邻⻆度同时发声的信号解耦、声源定位和身份识别；橙⾊和紫⾊表示声⾳互相交叉和融合。嵌⼊的红⾊虚线框指示了球⾯不同板的信号响应。

图五：基于声学超球⾯的⾳频克隆和语⾳识别系统。（A）莎⼠⽐亚《⼗四⾏诗》的语⾳录制和复现，离散的⼈声信息。（B）⻉多芬《献给爱丽丝》的⾳频复现和识别，连续的乐器信息。（C）基于隐⻢尔可夫模型的机器学习流程图。（D）多种常⽤指令（动作、物体、数字、求救）的识别结果，1980组数据，识别准确率超过96%。