大数跨境

2025声学楼早鸟票倒计时第8天|人耳对声音/空间的感知

2025声学楼早鸟票倒计时第8天|人耳对声音/空间的感知 声学楼论坛
2025-09-23
1


人耳如何通过生理结构接收声音,并利用双耳线索与频谱特征实现三维空间感知(方向、高度、距离)。


听觉通路

声音的“人体之旅,声音的传导像一场接力赛, 从👂耳廓 → 🌀 耳道 → 🦴 听小骨 → 🐚 耳蜗  。其中耳廓收集声波(像小雷达);听小骨放大振动(天然扩音器);耳蜗将声波转为神经信号(声音翻译官) 。 


空间感知三大超能力

1.水平定位依靠双耳时间。左耳右耳听声不同步,大脑计算时差判断方位。

2. 垂直定位依靠耳廓声纹识别器 。耳廓褶皱扭曲高频声波会形成独特频谱指纹。(冷知识:猫耳转动增强垂直定位,人类靠耳廓凹槽)

3. 距离感知依靠声波衰减、混响比例等环境声学特性。

大脑是终极声音处理器  

1、听觉皮层解析双耳信号 + 记忆声学场景从而构建3D声场地图  

(进化意义:远古人类靠此躲避猛兽,现代人用来听歌辨位!)


二、声音的重现过程


现场表演中非常复杂的声场可以通过一些麦克风进行采样,带到录音棚,并通过一些通道和扬声器进行操作,使其听起来很好。右图说明了我们喜欢的大多数流行音乐和爵士乐的起源。表演者在录音室里一起或单独唱歌和/或演奏,他们的贡献被存储在“曲目”中,然后,录音工程师和音乐家“混合”最终产品,调整单个表演者的贡献,也许可以通过均衡来改变声音和乐器的音色,并添加空间效果:反射、混响等等。


三、如何录制清晰语音


辅音的重要性

在录音时,应该始终考虑到语音的清晰度问题,也就是说,在我们录下的说话声中,每个词应该都是清晰可辨的。然而,在录制或放大声音时,要保持语音的清晰度在技术上是很有挑战性的。

发声原理

空气通过声带振动从而产生声音,控制声带可以让声音的音量和音调发生变化,然后声音通过声带上方的腔(咽、口、鼻)过滤后发出。发声力度的不同会相应改变声音的电平、音调、频谱。很明显的例子就是,喊叫的声音和随便说话的声音完全不同。当录音时,你可能会发现声音信号的峰值远高于RMS值或平均电平,而你需要确保所有峰值都能在录音通路里保留。

辅音和元音的发声过程不太一样:元音是由声带产生、声腔过滤后直接发出;辅音则是空气通过喉咙和口腔(特别是舌头和嘴唇)时,受到阻碍而形成的。在发音方面,元音负责构成单词的音节,并与辅音字母一起形成完整的发音。

什么音最需要被保留

从音位学(phonologie)上来说,汉语是一种声调语言,也就是:元音、辅音和声调共同承担表意功能。在语音不变的情况下,我们还能通过4个声调的变化来改变语义,不同的声调能表达出不同的意思。

但是世界上更多的,包括英语在内的语言,是非声调语言,即:无论声调怎么变化,都不会改变词的意思。而在一切非声调语言中,辅音就显得更为重要。

为什么说辅音更重要?它和语音清晰度有什么关系?

从声学上来看,元音大概位于中低频200~1khz左右,发音长且持续(类似低音);而辅音(k、p、s、t等)主要出现在500Hz以上的频率范围内,更具体一点说,是在2 kHz-4 kHz频率范围内,发音非常短促(类似于高音)。所以人声想要丰满,就可以提升元音所以的频率段;人声想要清晰,就可以提升辅音所在的频率段。

形成不同元音的空腔也影响着空气流通。一般来说,男性的复音基频(也称为基音或f0)大约在100-120Hz的范围内,但在这个范围之外可能会发生变化。女性的f0大约高出一个八度。对于儿童来说,f0大约是300Hz。

通过简单的发声实验就会发现,无论多努力地去大喊一个辅音,都不会很大声在正常的声音强度下,元音的能量通常在大约1k Hz以上迅速减少。当声音升高时,对语音频谱的强调会向更高的频率移动一到两个八度。这也意味着,当你大声喊话时,辅音会被元音所掩蔽——大喊并不会让对方更容易理解你的语音。

滤波器对语音清晰度的影响:

高通滤波器将500Hz以下的频率全部去除,仍然可以让语音信号很容易被理解。即使大部分语音的声音能量被去除了,语音的可理解程度也只降低了5%

与之相反的是,使用低通滤波器会使语音清晰度下降得非常快。将1kHz作为截止频率时,语音清晰度已经低于40%。由此可以看出,1khz到4khz之间的频率范围对于语音清晰度是至关重要的。

噪声对语音清晰度的影响:

语音清晰度与信噪比(S/N)成反比。较低的曲线表明,即使信噪比为负,语音仍然可以在一定程度上被理解。但在任何情况下,最佳的感知语音水平约为60 dB re 20μPa。

当背景噪音电平低于40dB(A)时,最佳语音电平是恒定的;

最佳语音电平似乎是当背景噪音电平大于40 dB(A)时,保持约15 dB(A)信噪比的电平;

在信噪比几乎完好保持语音可理解度的条件下,随着语音电平的增加,听力难度增加;

麦克风摆位

下图是垂直面和水平面上说话者周围声场的极坐标图。图中绘制的电平是A计权的,包括男性和女性,所有的说话者都坐着,在离他们1米处测量电平。可以看出,前后之间的差值约为7dB。在垂直面的图中,330°方向的电平要高于其他方向,这主要是因为声音在胸部受到反射。

此图显示了从160 Hz到8 kHz的频率相关极坐标图,可以看出,指向性从大约1kHz增加到更高。结合这一点和之前我们说过的1kHz以上频率的重要性,我们很明显能得出结论:在说话者面前录音,可以比在说话者背后录音获得更高的语音清晰度。

人体的反射声、麦克风放置的角度和距离,都对语音清晰度有所影响。下面是三条曲线,呈现了将麦克风放在身体或头部不同位置时,语音频谱会发生什么样的变化。

麦克风放在前额可以保留大部分声音信息,是相对来说最好的位置,但在实际应用中很多时候没法将麦放在前额。

而实际录音中最常用的领夹麦(胸部位置),这个位置所录语音的直接声音电平远低于额头位置,在频率方面,不仅失去了高频,而且在中频上损失了更多,从而使语音清晰度大大降低。当你不得不把麦克风放在一个不太理想的位置去录音时,就必须用EQ补偿来保持声音的自然度和清晰度。


内容来源:小橘子电声

来源注明为其他媒体来源的信息,均为转载自其他媒体,并不代表声学楼赞同其观点,也不代表声学楼对其真实性负责,转载请联系原出处。您若对该文章内容有任何疑问或质疑,请立即与后台小编联系,平台将迅速给您回应并做处理。











【声明】内容源于网络
0
0
声学楼论坛
“声学楼”创办于2005年,致力于促进声学领域技术交流与应用。历经多年发展,声学楼已从一个单纯声学工程师交流平台,成长为音频企业上下游多方参与音频技术专业论坛之一,每年还通过举办技术研讨会、年会等活动,搭建起与会的行业供需双方沟通的桥梁。
内容 0
粉丝 0
声学楼论坛 “声学楼”创办于2005年,致力于促进声学领域技术交流与应用。历经多年发展,声学楼已从一个单纯声学工程师交流平台,成长为音频企业上下游多方参与音频技术专业论坛之一,每年还通过举办技术研讨会、年会等活动,搭建起与会的行业供需双方沟通的桥梁。
总阅读0
粉丝0
内容0