音频的高频成分在语音质量、感知体验和下游任务中起着重要作用,主要体现在以下几个方面:
高频成分包含丰富的谐波信息,对辅音(如 /s/、/f/、/t/)的感知尤为重要。例如,电话语音通常限制在 300Hz-3.4kHz,导致部分辅音听起来模糊,而带宽扩展到 16kHz 后,语音更接近真实人声,清晰度和自然度明显提高。
某些语言的音素主要依赖高频成分进行区分,例如英语中的 /s/ 和 /ʃ/(“see” vs. “she”),如果高频信息缺失,听众可能难以分辨类似的发音,影响语音的可懂度。
高频成分携带重要的空间感知信息,例如房间混响、方向感和立体声特性。因此,在音乐和沉浸式音频应用(如 VR、3D 音频)中,高频成分能够增强空间感,使音频听起来更自然和生动。
在音乐压缩(如 MP3、AAC)中,高频成分决定了音色的细腻程度。高频缺失可能导致音乐变得暗淡、失去层次感。因此,许多高质量音频编解码器(如 Hi-Res Audio、LDAC)都强调高频部分的保留。
在传统带宽扩展算法中,线性预测系数是比较常用的重构音频参数,基于线性预测分析的带宽扩展算法流程框图如下所示,大致可以分为4个步骤:
对音频进行分帧
其中高频成分通过线性预测分析来估计
其中低频成分直接原始宽带信号中提取
高频成分通过IFFT得到对应的时域信号,由于低频(LF)和高频(HF)估计过程中可能引入不同的延迟,因此需要同步对齐。最后将对齐后的高频信号和低频信号进行相加,然后使用OLA进行拼接得到最终的32kHz信号。
内容来源:语音算法组

