大数跨境

声学楼十九周年年会嘉宾-QQ音乐音频技术总监闫震海博士

声学楼十九周年年会嘉宾-QQ音乐音频技术总监闫震海博士 声学楼论坛
2024-09-20
2


万众瞩目,众望所归!对中国音频行业的发展产生巨大影响与推动作用的2024年声学楼十九周年年会即将于2024年10月18-19日在深圳会展中心盛大举行。


声学楼论坛作为国内音频技术专业等级最高、历史最悠久、用户量最多、覆盖面最广、深受行业关注与高度认同的声学技术交流平台,与中国音频行业共同成长十九年,影响深远。


2024年声学楼十九周年年会将致力于展现全球声学领域最新技术与应用,必将引领声学产业新的潮流,与我们共同迎接智能音频科技最新发展。



 2024年声学楼十九周年年会嘉宾
引言

在数字音乐的浪潮中,音频技术的革新正以前所未有的速度推动着音乐体验的升级。随着人工智能技术的飞速发展,AI在音乐制作、混音以及音效渲染等领域的应用日益广泛,为用户带来了更加个性化、沉浸式的音乐享受。今天,我们有幸邀请到了QQ音乐音频技术总监闫震海先生,与我们分享AI对音频技术发展的深远影响,以及QQ音乐在音频环绕效果和音效渲染方面的创新实践。



闫震海

QQ音乐音频技术总监


博士毕业于中科院声学所,拥有10多年音频算法经验,主要负责QQ音乐臻品音质和银河音效等音频技术开发,“中国专利优秀奖”获得者。主导开发臻品系列音质、音频超分、个性化定制音效、智能曲谱、疗愈音乐等创新音频应用。相关技术应用到包括QQ音乐、酷我音乐、全民K歌、小米Lite版、JOOX、理想汽车、宝马汽车、爱趣听等平台。

声学楼:近几年随着人工智能技术的发展,AI在驱动音频技术和增强算法方面得到了广泛应用。未来AI对音频技术的发展还会有哪方面的影响?


闫震海:谈整个音频行业有些太过广泛。这里我比较关注AI与音乐行业的关系,尤其是音乐混音和制作。其实AI的影响不是近两年才开始。很早之前我们就看到了一些智能混音插件的出现。这些强大工具的出现,无疑降低了音乐混音的门槛,加速了音乐制作的速度。


除了制作工具的升级,我们发现用户场景的分类也更加多样且准确了。这样就可以更加有针对性的为用户推荐合适的歌曲,同时搭配适合特定场景的音效渲染。QQ音乐客户端有一个功能叫银河音效,它主要做的就是让曲库中的内容在端上有更多样化的呈现。有了场景的加持,相信为用户推荐的效果会更为用户所喜欢。


说到场景,无论是专注或者放松,或者助眠的场景,QQ音乐有一个集合的概念叫疗愈型音乐,或者功能性音乐。近期端内也有一个疗愈音乐功能的上线,其结合了AI音乐生成、音效处理、实时性交互渲染等技术,生成无限变化的疗愈音频,为用户提供更有效、更沉浸的疗愈体验。未来相信AI会更多的满足用户在个性化细分场景的听歌诉求。


声学楼:音频环绕效果也是近几年来用户追捧的一种听音偏好,能否简单介绍一下QQ音乐在空间环绕效果的设计思路?


闫震海:音频环绕是除了音质以外,在音效里需要重点想突破的一个场景。要想做好音频环绕的感觉,需要分播放场景去实现。因为让用户在所有场景下听到的效果完全一样是不现实的。这是播放设备的物理局限性导致的。比如在移动端,大多数用户都是通过耳机去聆听音乐。在这种场景下,更多要考虑立体声播放的音频环绕增强应该怎么做?比如一些比较直观的做法,是把非相关的信号提取出来,做增强。    


QQ音乐推出的是臻品全景声这一音质产品,主打车载和家庭影院等应用场景。它的主要做法是,通过提供真实多通道音源的方式发挥家庭影院或者车载多通道扬声器的优势,为用户呈现出沉浸式的听音感受。因为只有提供真实的音源,才能实现比较稳定的音频环绕效果。比如5.1通道的家庭影院,或者车载的多通道系统。在这些应用场景中,大多数系统接入臻品全景声之前,基本上输入都是立体声音源。         


那会产生什么问题呢?整个重放系统输入的是立体声,但是输出又是5.1、7.1.4这种多通道的声音,中间就存在不匹配。那这个差异需要通过一些实时的算法去弥补。比如一些传统的上混的算法2变6。


但是这种上混的效果没有先验知识,也就是说并不知道当前输入的这个音乐的内容是什么。只是被动默认当前是两通道信号输入。它整体的环绕效果还是比较有局限性的。


比如理想的L9汽车同时支持两声道和7.1.4这种多通道的播放。我们选择直接播立体声和臻品全景声7.1.4两类文件。两个方案在终端重放的思路都是为了打造沉浸感。但是最终听下来按主观评测的效果来说,还是多通道的音源效果更胜一筹。


声学楼:音效渲染现在是音频或者音乐播放器比较重要的一个后处理模块之一。您所负责的银河音效在QQ音乐中有哪些创新应用?


闫震海:银河音效是我这几年一直在做的一个产品。音效虽然属于音频后处理,但是也要针对细分场景进行拆分。因为如果不拆分每一个应用场景的话,会遇到某些音效在A场景十分好听,在B场景就有些欠佳。

比如在耳机、家庭影院或者车载这些不同的重放场景里,声学环境是不一样的。因此我们就需要通过一些技术手段去获取当前的播放环境。在车载的场景中,我们如果能够预先知道听音位置,扬声器的播放夹角,或者声学相关的一些特性,然后针对性地去做一些后处理。这样会比完全没有先验知识去做音效,效果会更可控一些。      

在耳机场景中,声音从手机的QQ音乐客户端解码完成后,首先要经过耳机音频系统,再经过耳道,最后到鼓膜。整个过程包括音源,耳机自身的频响,还有用户自己的听力曲线等因素的影响,导致每个人对声音或者说不同频段的感知是不一样的。因此我们可以通过简单的听力测试,帮助用户去做播放链路的特征提取,进而做个性化的音效定制。这些都比盲目去做一些粗暴的后处理要靠谱很多。


另外,现在有很多音乐达人在我们平台制作个性化歌单。在制作歌单的时候,他们不仅要考虑歌单的选曲,还有一些加分项,比如封面的设计等。去年,我们上架了一个新的功能。让用户在歌单制作时,可以为歌单配置专属的音效,从而使得个性化歌单内容呈现更加丰富经过音乐达人的主观试听,这个歌单与音效叠加的效果相当于经过了人工审核,效果也更加可控。


我们还有一个比较创新的尝试。对于大多数人而言,音乐主要服务于耳朵,是听感相关的事情。但是我们对音乐的理解,不仅限于一个wav文件或者波形文件。其实音乐还有更多维度的表达形式,我们在播放音乐的时候,还可以去做一些比如像手机的振动马达,闪光灯等多维多模态的联动。

这些我们都在客户端里落地了,叫振动闪光的产品功能。


声学楼:未来音频信号处理会有哪些基于深度学习的方法,最有可能在音质音效的哪些领域大放光彩?


闫震海:领域或者场景,我认为并没有大的变化。新工具的出现,之前相关领域都值得重新做一遍。

比如苹果的Vision Pro发布后,虚拟现实或者虚实结合的场景越来越多。在这种情况下,有很多事情是可以做的。尤其是在虚拟场景里,空间音频可以发挥更大的作用。


无论是家庭影院还是车载应用,都是真实的播放环境,只是扬声器的布置不一样。比如在会议室里,墙壁的装修,会议室的体积,都决定了这个环境的声学特征。有了虚拟的场景后,我们可以很快从一个真实场景切换到另外一个虚拟空间。之前我们对这种场景的渲染,基本上都是采用规则集的方式。实现的场景也十分有限。大模型的出现让虚拟空间的多样化渲染成为可能。同时,很多跟环境相关的音效元素,都可以通过AI的方式快速合成,而不必借助于人工提前准备。


还有一个场景我觉得比较有意思值得重新思考一下。我们之前有智能曲谱的识别功能,针对的用户是需要每天在家里练琴的孩子。主要是钢琴谱的识别,当用户按下几个音符的时候,通过现场收音的方式可以实时评价当前按的音准不准,是否需要去做校正或者提醒。大模型出来以后,这种场景可以更加人性化一些,就像一个陪练助手一样,关注在练琴场景的用户诉求。   


声学楼:未来QQ音乐播放器的发展还会有哪些新趋势?     

闫震海:虽然QQ音乐的曲库是非常庞大的,但我们没有仅仅停留在曲库存放的音频文件,还对它们进行了充分的挖掘,尤其是搭建了音乐知识图谱的概念。比如这首歌背后的背景知识,音乐人的相关信息,这首歌的演奏技巧等。相当于我们在后台搭建了一个音乐场景里的百科知识。QQ客户端里边也有AI听音小助手。当用户想听歌找歌,或者了解一些这首歌的背后的故事,都可以通过这个入口去了解。我们也跟外网的一些大模型去做过对比。当用户去问一些音乐垂直类相关的知识时,通用模型给到的回答可能非常泛泛,因为来源可能都是外网的一些新闻报道。而QQ音乐的回答更偏重于音乐背后的一些相关知识。

另外,QQ音乐有多个终端版本,比如移动端、PC、TV、Pad、车载等。用户从一个场景切换至另一个场景时,可能需要不同的设备来播放音乐。如何能做到多个场景多个终端的无缝衔接,让用户整个听音体验更加流畅。这未来发展的新趋势之一。我们也一直在努力跟更多的硬件播放设备做联动,让整个播放链路成为一个系统,降低用户使用的割裂感。   


内容来源:21dB声学人

今年恰逢声学楼创办19周年。19年来,声学楼已逐渐发展到涵盖数十个方向迄今为止举办了近1000多场技术论坛,近千余位国内外讲者积极参与,累计超过13000人注册的音频领域年度盛会。十九载不断超越,作为国内音频技术领域参会人员众多,规模大,水平高的年度盛会,19年来将精心筹划,为参会者带来一场前沿碰撞、展望未来的技术盛宴,让每位参会者都能在声学楼这个超大体量专业平台上提升自身的专业价值,获得前行的动能!等你来,马上行动,欢迎参会报名音频产业盛会!

●优惠早鸟票开启了!

2024年声学楼十九周年年会论坛报名工作火热进行中......

年会时间:

2024年10月18日至10月19日

年会地点:

深圳会展中心

深圳市福田区福华三路

年会费用:

优惠票人民币 498元/人,截止时间:9月30日前

标准票人民币 998元/人,现场购票


费用包含:两天声学楼论坛门票、会刊、19周年年会论文集、年会精美纪念品、两天中餐费用

报名方式:

长按识别下方报名登记二维码(声学楼公微),提供姓名+工作单位+手机号码+报名人数给年会工作人员。等待报名确认后,工作人员将以电话、短信或微信方式通知报名联系人,并加入声学楼19周年年会技术交流群。


注1:为保证本次高水准会议的质量,保证报名观众的现场聆听效果,克服以往每届年会都会出现的人潮涌动、人满为患的情况,本次大会将限制人数,满600人即告终止报名。请大家抓紧报名,不要错过此次行业盛会。


注2:以上早鸟票为特别优惠价。费用包含有:两天2024声学楼十九周年年会门票及年会论文集&峰会会刊、峰精美纪念品、两天会议中餐,并将有抽奖活动。


更多精彩内容,将持续更新!敬请新朋老友关注......

   让我们共同迎接2024国际音频产业峰会   (INTER-AUDIO2024)暨声学楼论坛十九周年年会到来!



| 主办单位 |
声学楼论坛 
| 支持单位 |
中国听力医学发展基金会

南京大学魏荣爵基金会

深圳市社会组织总会

上海市浦东新区先进音视频技术协会

深圳市跨境电子商务协会

智慧影音产业联盟




【声明】内容源于网络
0
0
声学楼论坛
“声学楼”创办于2005年,致力于促进声学领域技术交流与应用。历经多年发展,声学楼已从一个单纯声学工程师交流平台,成长为音频企业上下游多方参与音频技术专业论坛之一,每年还通过举办技术研讨会、年会等活动,搭建起与会的行业供需双方沟通的桥梁。
内容 3422
粉丝 0
声学楼论坛 “声学楼”创办于2005年,致力于促进声学领域技术交流与应用。历经多年发展,声学楼已从一个单纯声学工程师交流平台,成长为音频企业上下游多方参与音频技术专业论坛之一,每年还通过举办技术研讨会、年会等活动,搭建起与会的行业供需双方沟通的桥梁。
总阅读2.6k
粉丝0
内容3.4k