4 月 2 日,声网Agora 开发者社区在上海开启了今年的首场线下开发者活动。来自上海、杭州的几位开发者参加了「音频 SDK 开发者体验会」。现场开发者们与我们的工程师深入交流了音频 SDK 中的接口使用与背后的技术原理。
这次活动上,声网Agora 音频体验高级工程师 冯建元,从声学到音频处理,深入浅出地分享了在实时互动场景下美化声音的原理,以及如何通过软件算法来实现空间音效(Spatial Audio)。

实时互联网发展到今天,不少基于RTE的应用场景都已经实现了从听的到、听的清到高音质、高保真的场景转变。所谓高音质的实时互动,是在音频采集时使用自定义的高采样率(44.1KHz-48KHz)的软件驱动进行采集,然后使用对音频损伤较小的 APM(降噪、回声消除、自动增益等)对信号进行处理,同时采用码率较高且保真性能较好的 codec 进行编解码,从而使远端收到的音频可以达到双声道、44.1KHz-48KHz 的采样频率,且各个频段能够尽量保持信号不失真的应用场景。在高音质场景下语聊的声音细节会更丰富、听感更接近真实的场景。
在高音质条件下人们对自己的声音会有更高的需求。正如高清的照片会凸显面容的缺陷从而需要美颜,在高音质场景下人们也希望自己的声音能够变得更好听、更动人。同时在直播或者其他娱乐场景中人们可能需要使用不同的声音风格比如变声、电音等来丰富内容的趣味性。
实时美声就是为了在高音质的场景下实现超高音质满足用户的美声需求的同时满足RTE场景的低功耗、低延时等特性。

实时美声的背后有三驾马车:数据驱动、多学科理论、算法融合。实时美声可以应用到语聊、歌唱、虚拟立体声、风格转换、场景音效、音色变换等场景中。

在声音得到美化的同时,用户还希望得到更沉浸式的互动体验,而空间音效就是带来身历其境体验的功能之一。在声网 SDK 中,我们只需要在参数中设定声源的角度和距离,就可以决定声源的位置,利用软件算法模拟出“身临其境”的空间感。

我们在音频技术解析系列中简要分享过实时美声的技术原理,以及空间音效。如果你没能来这次活动现场,可以点击这里阅读文章。
我们也准备了一些音频 Demo,可以在线试听:https://www.agora.io/cn/audio-demo
既然是体验活动,我们肯定要跟开发者一起用代码实现这些音频美声、特效。在活动后半程,开发者们各自体验了我们的音频 SDK 及相关 Demo。
我们提供的 Demo 包括这些👇,没能来到现场的小伙伴同样可以 fork 试用。
在开发者们编码、体验的同时,我们的资深工程师们也在旁边帮他们解答了许多在接口、参数方面的疑问。



我们的工程师与开发者在活动中聊到了很多音频 SDK 中的功能与接口。相信在更多人的应用中,为了能够提升音频互动的体验,都需要对人声效果进行优化。声网Agora 的音频 SDK 中提供了预设的人声效果,也支持通过音调、声音均衡和混响等设置自定义人声效果。
以 Android 平台为例,在 SDK 中,你可以通过 setVoiceBeautifierPreset 来对预设的人声效果进行调节,满足语聊美声、歌唱美声、音色变换等需求。
如果想要通过空间混响来营造特定的空间氛围,让人声仿佛从特定的场地中传出,则可以借助 setAudioEffectPreset 这个方法来实现。通过设定不同的枚举值,可以模拟出 KTV、演唱会、录音棚、留声机等不同的空间音效效果。
对于想要实现听声辩位的场景,通过 setRemoteVoicePosition 这一方法,即可以对于远端用户的声音空间位置和音量进行调节。设置声音出现位置后,声道声音的差异会让用户产生声音的方向感,从而判断出远端用户的实时位置。在多人游戏的场景中,这种方法能够增加游戏角色的方位感,模拟出更加真实的临场感。
如果想要更详细的了解如何利用代码实现美声和空间音效的应用,可以点击「阅读原文」在官方文档中了解更详细的信息。
注册体验声网Agora SDK,领取每月 10000 分钟免费额度:
http://dwz.date/eEjh
