大数跨境

多扬声器音箱如何消除非线性回声?华为这项欧洲专利给出共享预处理方案

多扬声器音箱如何消除非线性回声?华为这项欧洲专利给出共享预处理方案 声学楼论坛
2026-02-24
1


当设备配备多个扬声器(如高音单元+低音炮)且音量较大时,扬声器本身产生的非线性失真会在多个麦克风之间形成复杂的回声干扰,影响语音交互体验。

华为公司在1月28日授权公告了一项名为“多通道非线性声学回声消除”的欧洲专利EP4205108B1,提出了一种兼顾音质与计算效率的解决方案。

传统声学回声消除(AEC)技术主要针对线性系统但在实际应用中,微型智能音箱的扬声器单元或驱动功放往往会在大信号时出现饱和、谐波失真等非线性特性。这意味着扬声器发出的声音已经不再是输入信号的“忠实复制”。

更复杂的是,现代高端音箱通常采用多扬声器阵列(如7个高音单元+1个低音炮)配合多麦克风(如环形麦克风阵列)的MIMO(多输入多输出)架构。

“每个扬声器都是其他扬声器的干扰源,”专利文档指出,“如果为每一对麦克风-扬声器路径单独建立非线性模型,参数数量将非常庞大,计算复杂度高,难以在消费级设备上实时运行。”

Fig. 1 设备整体架构展示,明确麦克风阵列(101a-g)、扬声器阵列(103a-h)与用户(10)的位置关系。

Fig. 2a-c 声学处理装置核心结构拆解。Fig. 2a:展示声学处理装置(110)的基础框架,包括第一信号接收单元(130,接收扬声器信号 x (n))、第二信号接收单元(140,接收麦克风信号 y (n))和处理电路(120)三大核心模块,明确各单元的信号流向。Fig. 2b:补充展示混音单元(150)、自适应 MIMO AEC 处理块(127)等扩展组件。Fig. 2c:细化处理电路的内部结构,重点呈现非线性预处理器(122a-g)、直接路径 AEC 处理块(121)、残余路径处理块(127)等核心功能模块,明确预处理器输出与回声信号估计的关联逻辑。

技术核心:共享非线性预处理器架构

华为德国研发团队重构了MIMO非线性系统的建模方式。传统方法将每个扬声器到每个麦克风的传输路径视为独立的非线性系统,导致参数冗余。

华为方案基于一个关键观察:多个麦克风观测到的非线性失真实际上源自同一组物理扬声器。基于这一原理,系统为每个扬声器配置一个无记忆非线性预处理器,采用基函数展开方法近似其失真特性。

具体而言,第p个扬声器的预处理器将输入信号xp(n)映射为:
中gⱼ(・)代表预定义的基函数(如 Legendre 多项式、幂滤波器、傅里叶级数、对角 Volterra 核或神经网络等),数量 Lₐ通常为 2 至 5 个可调权重系数

Figs. 3a-3b:多通道设备信号处理逻辑

耦合的MISO结构

关键设计在于,所有麦克风共享同一组预处理器输出,而非为每对麦克风-扬声器建立独立模型。这种耦合的MISO(多输入单输出)结构使得每个预处理器可通过多个麦克风信号联合优化,且参与优化的麦克风数量可根据计算资源灵活选择。

可扩展的麦克风选择机制

针对每个预处理器的权重系数调整,系统支持基于几何配置选择麦克风子集。

具体而言,可根据麦克风与对应扬声器之间的空间距离选择距离最近的若干麦克风参与优化。

例如,针对高音扬声器的预处理器可选定距离最近的三个麦克风,而针对位于中心位置的低音炮则可选用全部麦克风或任意子集。这种设计提供了计算成本与建模精度之间的可扩展权衡。

Figs. 4a-4b:麦克风选择机制演示
Fig 5:声学处理方法流程。多通道非线性回声消除的核心步骤:接收信号(501)→ 应用预处理器(503)→ 估计回声信号(505)→ 生成回声抑制后的麦克风信号(507)

双路径分离处理架构

估计的回声信号由直接路径分量与残余路径分量相加构成:

  • 直接路径采用基于模板的建模方式。系统使用一个或多个预定义的MIMO FIR滤波器模板(可基于先验测量的房间脉冲响应),通过可调权重系数的线性组合来估计直达声。模板权重通过块递归最小二乘算法优化,使用直接路径参考信号,其中 P 为块选择矩阵,作用是将残余路径前段 Ldir 个样本置零,避免两路径参数竞争。

  • 残余路径采用自适应MIMO FIR滤波器,基于一个或多个选定的扬声器信号进行建模。其参考信号为麦克风信号与直接路径估计之差。该路径可通过GFDAF(广义频域自适应滤波)算法实现,以保证收敛效率。

两路径的分离避免了参数估计时的相互干扰,使用不同的参考信号避免自适应滤波器竞争。

频域实现与验证

为提升计算效率,系统采用频域块处理(Overlap-Save)结构。预处理器输出信号经傅里叶变换后,与频域表示的滤波器模板进行逐元素相乘处理,避免时域卷积的高复杂度。

专利披露的原型测试在一个配备8个扬声器(7个高音单元+1个低音炮)和7个麦克风的设备上进行,测试环境为典型起居室(混响时间 T₆₀=550ms,扬声器 10cm 处声压级 SPL=96dB),预处理器采用前 3 个奇数阶 Legendre 多项式作为基函数。

Figs. 6a-6b:原型设备物理结构。展示了多通道智能音箱的俯视图(6a)和底视图(6b),明确 7 个高音扬声器(101a-g)、1 个低音炮(101h)及 7 个麦克风(103a-g)的实际安装位置(高音扬声器等距分布、低音炮位于中心、麦克风对应高音扬声器下方)

Fig.7 性能曲线验证。通过 ERLE(回声返回损耗增强)数值随时间变化的曲线图,对比纯线性系统与本专利系统的性能差异,突出本系统在非线性失真强烈时段(如 t=20s)的优势(约 6dB 增益),同时展示麦克风数量对性能的影响趋势。

测试结果显示:在处理女性语音信号时,相比纯线性系统,该技术在失真强烈时段可获得约6 dB的回声返回损耗增强(ERLE);对于音乐信号,由于其高斯特性未强烈激发扬声器非线性,系统性能未出现退化。

Fig.8 性能数据量化。以表格形式量化呈现不同测试场景(女性语音、男性语音、音乐信号)下的核心性能指标,包括平均 ERLE、最大 ERLE 提升量及实时因子(RTF),清晰展示系统在不同信号类型下的适应性,以及性能与计算成本的权衡关系。

实时因子(RTF)测试表明,随着用于优化的麦克风数量增加(从 1 个到 7 个),计算负担相应提升(RTF 从 0.20 增至 0.31),实现了性能与计算资源的可控权衡。

总结

该技术通过共享非线性预处理器减少了建模冗余,通过可扩展的麦克风选择机制平衡了计算资源,并通过双路径分离避免了自适应滤波器之间的参数竞争,从而为小型化多扬声器设备提供了可行的非线性回声消除方案。

内容来源:21dB声学人

【声明】内容源于网络
0
0
声学楼论坛
“声学楼”创办于2005年,致力于促进声学领域技术交流与应用。历经多年发展,声学楼已从一个单纯声学工程师交流平台,成长为音频企业上下游多方参与音频技术专业论坛之一,每年还通过举办技术研讨会、年会等活动,搭建起与会的行业供需双方沟通的桥梁。
内容 3422
粉丝 0
声学楼论坛 “声学楼”创办于2005年,致力于促进声学领域技术交流与应用。历经多年发展,声学楼已从一个单纯声学工程师交流平台,成长为音频企业上下游多方参与音频技术专业论坛之一,每年还通过举办技术研讨会、年会等活动,搭建起与会的行业供需双方沟通的桥梁。
总阅读2.6k
粉丝0
内容3.4k