2025声学楼早鸟票倒计时第8天｜人耳对声音/空间的感知- 大数跨境

首页

2025声学楼早鸟票倒计时第8天｜人耳对声音/空间的感知

声学楼论坛

2025-09-23

人耳如何通过生理结构接收声音，并利用双耳线索与频谱特征实现三维空间感知（方向、高度、距离）。

听觉通路

声音的“人体之旅，声音的传导像一场接力赛，从👂耳廓 → 🌀 耳道 → 🦴 听小骨 → 🐚 耳蜗。其中耳廓收集声波（像小雷达）；听小骨放大振动（天然扩音器）；耳蜗将声波转为神经信号（声音翻译官）。

空间感知三大超能力

1.水平定位依靠双耳时间差。左耳右耳听声不同步，大脑计算时差判断方位。

2. 垂直定位依靠耳廓声纹识别器。耳廓褶皱扭曲高频声波会形成独特频谱指纹。（冷知识：猫耳转动增强垂直定位，人类靠耳廓凹槽）

3. 距离感知依靠声波衰减、混响比例等环境声学特性。

大脑是终极声音处理器

1、听觉皮层解析双耳信号 + 记忆声学场景从而构建3D声场地图

（进化意义：远古人类靠此躲避猛兽，现代人用来听歌辨位！）

二、声音的重现过程

现场表演中非常复杂的声场可以通过一些麦克风进行采样，带到录音棚，并通过一些通道和扬声器进行操作，使其听起来很好。右图说明了我们喜欢的大多数流行音乐和爵士乐的起源。表演者在录音室里一起或单独唱歌和/或演奏，他们的贡献被存储在“曲目”中，然后，录音工程师和音乐家“混合”最终产品，调整单个表演者的贡献，也许可以通过均衡来改变声音和乐器的音色，并添加空间效果：反射、混响等等。

三、如何录制清晰语音

辅音的重要性

在录音时，应该始终考虑到语音的清晰度问题，也就是说，在我们录下的说话声中，每个词应该都是清晰可辨的。然而，在录制或放大声音时，要保持语音的清晰度在技术上是很有挑战性的。

发声原理

空气通过声带振动从而产生声音，控制声带可以让声音的音量和音调发生变化，然后声音通过声带上方的腔（咽、口、鼻）过滤后发出。发声力度的不同会相应改变声音的电平、音调、频谱。很明显的例子就是，喊叫的声音和随便说话的声音完全不同。当录音时，你可能会发现声音信号的峰值远高于RMS值或平均电平，而你需要确保所有峰值都能在录音通路里保留。

辅音和元音的发声过程不太一样：元音是由声带产生、声腔过滤后直接发出；辅音则是空气通过喉咙和口腔（特别是舌头和嘴唇）时，受到阻碍而形成的。在发音方面，元音负责构成单词的音节，并与辅音字母一起形成完整的发音。

什么音最需要被保留

从音位学（phonologie）上来说，汉语是一种声调语言，也就是：元音、辅音和声调共同承担表意功能。在语音不变的情况下，我们还能通过4个声调的变化来改变语义，不同的声调能表达出不同的意思。

但是世界上更多的，包括英语在内的语言，是非声调语言，即：无论声调怎么变化，都不会改变词的意思。而在一切非声调语言中，辅音就显得更为重要。

为什么说辅音更重要？它和语音清晰度有什么关系？

从声学上来看，元音大概位于中低频200~1khz左右，发音长且持续（类似低音）；而辅音（k、p、s、t等）主要出现在500Hz以上的频率范围内，更具体一点说，是在2 kHz-4 kHz频率范围内，发音非常短促（类似于高音）。所以人声想要丰满，就可以提升元音所以的频率段；人声想要清晰，就可以提升辅音所在的频率段。

形成不同元音的空腔也影响着空气流通。一般来说，男性的复音基频（也称为基音或f0）大约在100-120Hz的范围内，但在这个范围之外可能会发生变化。女性的f0大约高出一个八度。对于儿童来说，f0大约是300Hz。

通过简单的发声实验就会发现，无论多努力地去大喊一个辅音，都不会很大声在正常的声音强度下，元音的能量通常在大约1k Hz以上迅速减少。当声音升高时，对语音频谱的强调会向更高的频率移动一到两个八度。这也意味着，当你大声喊话时，辅音会被元音所掩蔽——大喊并不会让对方更容易理解你的语音。

滤波器对语音清晰度的影响：

高通滤波器将500Hz以下的频率全部去除，仍然可以让语音信号很容易被理解。即使大部分语音的声音能量被去除了，语音的可理解程度也只降低了5%

与之相反的是，使用低通滤波器会使语音清晰度下降得非常快。将1kHz作为截止频率时，语音清晰度已经低于40%。由此可以看出，1khz到4khz之间的频率范围对于语音清晰度是至关重要的。

噪声对语音清晰度的影响：

语音清晰度与信噪比（S/N）成反比。较低的曲线表明，即使信噪比为负，语音仍然可以在一定程度上被理解。但在任何情况下，最佳的感知语音水平约为60 dB re 20μPa。

当背景噪音电平低于40dB（A）时，最佳语音电平是恒定的；

最佳语音电平似乎是当背景噪音电平大于40 dB（A）时，保持约15 dB（A）信噪比的电平；

在信噪比几乎完好保持语音可理解度的条件下，随着语音电平的增加，听力难度增加；

麦克风摆位

下图是垂直面和水平面上说话者周围声场的极坐标图。图中绘制的电平是A计权的，包括男性和女性，所有的说话者都坐着，在离他们1米处测量电平。可以看出，前后之间的差值约为7dB。在垂直面的图中，330°方向的电平要高于其他方向，这主要是因为声音在胸部受到反射。

此图显示了从160 Hz到8 kHz的频率相关极坐标图，可以看出，指向性从大约1kHz增加到更高。结合这一点和之前我们说过的1kHz以上频率的重要性，我们很明显能得出结论：在说话者面前录音，可以比在说话者背后录音获得更高的语音清晰度。

人体的反射声、麦克风放置的角度和距离，都对语音清晰度有所影响。下面是三条曲线，呈现了将麦克风放在身体或头部不同位置时，语音频谱会发生什么样的变化。

麦克风放在前额可以保留大部分声音信息，是相对来说最好的位置，但在实际应用中很多时候没法将麦放在前额。

而实际录音中最常用的领夹麦（胸部位置），这个位置所录语音的直接声音电平远低于额头位置，在频率方面，不仅失去了高频，而且在中频上损失了更多，从而使语音清晰度大大降低。当你不得不把麦克风放在一个不太理想的位置去录音时，就必须用EQ补偿来保持声音的自然度和清晰度。

内容来源：小橘子电声

来源注明为其他媒体来源的信息，均为转载自其他媒体，并不代表声学楼赞同其观点，也不代表声学楼对其真实性负责，转载请联系原出处。您若对该文章内容有任何疑问或质疑，请立即与后台小编联系，平台将迅速给您回应并做处理。

【声明】内容源于网络

声学楼论坛

“声学楼”创办于2005年，致力于促进声学领域技术交流与应用。历经多年发展，声学楼已从一个单纯声学工程师交流平台，成长为音频企业上下游多方参与音频技术专业论坛之一，每年还通过举办技术研讨会、年会等活动，搭建起与会的行业供需双方沟通的桥梁。

内容 0

粉丝 0

声学楼论坛 “声学楼”创办于2005年，致力于促进声学领域技术交流与应用。历经多年发展，声学楼已从一个单纯声学工程师交流平台，成长为音频企业上下游多方参与音频技术专业论坛之一，每年还通过举办技术研讨会、年会等活动，搭建起与会的行业供需双方沟通的桥梁。

总阅读0

粉丝0

内容0