大数跨境
0
0

网易云音乐刘华平:音频技术不是“自嗨”,远未达到人类感知的极限丨人物专访

网易云音乐刘华平:音频技术不是“自嗨”,远未达到人类感知的极限丨人物专访 RTE开发者社区
2022-08-08
2
导读:“俗手”往往是对需求底层理解不透,花大力气做出高大上的功能
READING
前言

在中文博客风生水起的那些年,「音频刘品」在音频技术博客领域里是“排的上号”的。


无论是在百度还是谷歌,只要搜索音频算法相关的关键词,第一个蹦出来的很大概率都是他的博客。


「刘品」的本名是刘华平,博士毕业于上海大学通信学院,目前在网易云音乐担任音视频实验室负责人。早期 Google Android SDK 多媒体架构的贡献者,48 项技术发明专利、20 多篇专业论文和多项软件著作权。


他和音频技术的缘分,源自于 2005 年和师兄一起实现了对一台冰箱的语音控制,之后就一直坚守在音频领域。用他的话来说这“是偶然,也是必然”。


*本文为声网开发者 - 人物专访栏目,内容根据和刘华平的对谈内容整理,文内观点仅代表个人。




观点前瞻:


  • 借助音频超分技术确实可以给这些老歌新的生命力,但也会让他们丢掉原本特有的“味道”,就像奶奶把孙子孙女时髦的破洞牛仔裤补上。


  • 当你热爱一个领域又可以跟同样热爱这个领域的人保持很好的联系,可能就有了坚持十几年、愿意并乐于长期坚持下去的动力。


  • 如果直播中的音频部分能复现线下 70% 的现场临场感,那这件事就能做大做强。

  • 如果不进行尝试,哪怕是过渡性的尝试,永远都找不到新大陆。


  • 产业和学术两侧目前最大的不一致是目标的不一致,用互联网的话来说就是 KPI 不一致。


  • 音频技术是对人类听觉系统的延伸,所以人们对这个领域肯定会有强需求且是永无止境的。


  •  “俗手”往往是对需求底层理解不透,花大力气做出高大上的功能,但用户无感知。


Part 1

 


1、最初接触到音视频技术,是什么时候?

 

最开始接触到音视频技术,是在读研时跟着导师做了一个语音识别的课题。当时的课题方向是「孤立词识别」,目标是实现对机器人或者家电进行口令式的控制。


这种技术和操作在当时看来非常有挑战性,也是非常有意思的一个课题。最终我和一位师兄一起实现了对一台冰箱的语音控制。


那是在 2005 年,《喜羊羊与灰太狼》刚刚开始播出,李宇春在那一年获得了《超级女声》的年度总冠军。


2、之后就一直在音频领域了么?据我所知音频领域很少有人能坚持这么久

 

其实在毕业后我加入过好几家不同的公司,但技术方向一直是围绕着音频领域。之所以能坚持下来,我认为有两个原因:对音频的热爱以及一群志同道合的朋友。


声音的特点是无处不在且可感知性强,也是我们人类获取信息的主要途径之一。可感知就代表容易产生反馈,并且随着技术的发展这种反馈会越发的强烈且直观,这会加深我的成就感,也让我越发的热爱这一领域。


另外,我从 2008 年开始便在博客上写音频算法和应用相关的博文,并且每一篇写的都很用心,博客在当时音频技术细分类排名较靠前。当时无论是在百度还是谷歌,只要搜索音频算法相关的关键词第一个蹦出来的很大概率都是「音频刘品」的博客。


写博客给我带来的收获,一方面是加深了对技术和行业的理解,另一方面就是找到了一群志同道合的朋友。


音频领域在当年算是热门话题,无论是在博客还是 QQ,很多从业者和爱好者会进行大量深入且激烈的讨论交流。通过博客我认识了很多国内外做音频相关研究的同仁,我们通过留言、邮件各种形式,进行沟通、建立了联系。


说起来和声网的缘分也是通过博客建立起来的。Tony(声网创始人赵斌)在最开始成立声网的时候,我就和他有过不下三次的沟通。泽华(声网技术 VP 高泽华)也是看到我的博客内容之后才开始写博客,在这方面我算是他的老师哈哈。


总的来看,当你热爱一个领域又可以跟同样热爱这个领域的人保持很好的联系,可能就有了坚持十几年、愿意并乐于长期坚持下去的动力。


3、在这么多同行者中,对您影响最大的人是谁?


应该是我现在的老板丁磊先生。今年是我在网易的第 5 年,这 5 年间我和丁老板有过很多次线上或者线下的交流,他给了我相当多的对事物底层思考逻辑的启发。


比如针对音频超分(Audio Super Resolution),他认为,借助音频超分技术确实可以给这些老歌新的生命力,但也会让他们丢掉原本特有的“味道”,就像奶奶把孙子孙女时髦的破洞牛仔裤补上,效果可想而知是不受欢迎的。


他举了一个例子,中国第一首流行歌曲是 1927 年女歌星黎明晖演唱的《毛毛雨》,因为当时的技术水平问题,导致这首歌的音质和音效远远达不到我们现在歌曲制作的标准。如在这个场景下使用音频超分技术增加原本就没有的高频成分,会改变原质原味的听感。


类似的观点有很多,丁老板确实给我带来了很大的影响。



Part 2

 


4、相比十几年前,音频领域发生了哪些变化?

从我个人视角来看,可能有三个比较明显的变化。


首先是音视频技术的应用场景更加细分。发展到现在的阶段,音频技术不再具备非常普适的应用场景,不同场景都需要有更为细分且具有针对性的设计和优化。例如 RTC 降噪算法跟音乐场景下的降噪算法,侧重点就是不一样的。


其次就是音频算法的应用领域被拓宽了。比如近几年语音识别和语音合成因为深度学习方法的引入,效果获得了大幅度的提升。对应的场景有自动字幕、有声书等等,现在很多有声书的音频都是语音合成实现的,但完全听不出机器合成的痕迹。


第三点是与人的感知结合的更紧密。我们对音频的要求已经从听得清发展到听得真实、健康,比如降低听音频的疲劳性、增加音频的沉浸感等等,这些会进一步要求对发声和听觉基本原理的理解,真正实现音频技术对听、说的延续。


5、现在的音频能力是否已经接近了人类感知的极限?

 

其实音频领域很多早期的痛点基本都解决了,例如音质差、回声、网络音频丢包卡顿问题等等。但现阶段的音频技术离接近人类感知极限还有不少距离,甚至和视频相比都存在着不小的差距。


2015 年我在阿里音乐负责音乐会现场直播的相关工作,有幸跟宋柯老师和高晓松老师共事过一段时间。在项目沟通中他们有提到,如果音乐会直播中的音频部分能复现线下 70% 的现场临场感,那这件事就能做大做强。这其实就是音频技术尚未满足的一个部分,涉及到声音的空间感和视觉的联动性。


另一方面,音频与人的感知还有更多领域的探索空间。例如早先的语音通话目标是让人能听得清,现在就进展到怎么让人听得舒服,不容易听觉疲劳。比如传统的人机交互,只是通过声音传递冷冰冰的信息,现在语音交互考虑更多的是情感的传递 ;我们的音乐推荐系统也会开始研究如何对音乐的播放顺序进行排列,让人听起来更舒服、更沉浸。


总之,声音发声机制和听觉机制还有很多没有研究清楚,特别是听觉系统的机制。对这些基础领域和底层逻辑的研究,肯定会再次促进音频技术进一步发展。


6、现阶段对于音频的研究,主要为了解决哪些社会问题?用于优化哪些领域的应用与体验?


音频的研究主要解决的社会问题,最重要的肯定还是信息的传递,这也是最基础的能力。例如微信增加了语音短信和语音实时聊天的能力后用户量暴增,现在已经成为我们生活中重度依赖的一个工具。


具体领域和应用的优化,我想大概有这么几个方面:


● 声音信息的高保真和高效的传播

● 丰富信息的表现形式

● 信息安全和版权保护

● 传统行业的应用

● 更广的行业应用


我们以传统行业为例。很多传统行业都在搞数字化转型,很多新技术都会应用到工业数字化中,比如一些图像识别和监控可以看作工业检测中的“眼睛”,那么音频监控同样可以看做工业检测中的“耳朵”。此前因为技术的不完善,音频监控仅仅停留在研究层面,近年深度学习的引入,通过声音进行故障诊断变得真正可行了。随着数字化或者信息化技术在工业领域的发展,音频可能会比视频发挥更大的价值。


目前音频在很多高精尖领域的应用,例如超声波在医疗或国防的应用,基本都建立在国外的技术能力基础之上。另外,声学因为它的特殊性,在社会层面涉及到的领域目前还是很小的,但会随着技术的逐渐成熟变得更加普适和广泛。


7、音频领域近 2 年有哪些不被外行人了解的新应用和技术?您认为这些技术目前没能广为人知的原因是什么?

 

音频发展到现阶段确实出现了一些瓶颈,不过近两年仍然有很多新的应用出现。研究方向方面,之前更多的是在播放侧,现在更多的是在音频的分析和生成领域,这是整个行业方向的变化。


近一两年最热门的就是基于深度学习研发的音频编解码器,比如 2021 年 2 月 17 日,微软推出基于深度学习的音频编解码器 —— Satin, 它是一款由 AI 驱动的音频编解码器,用于取代 SILK,提供更低比特率,更高带宽的音频编解码;Google 同期推出了超低比特率音频编解码器 Lyra,2021 年 8 月,谷歌又推出了另一款 AI 音频编解码器 SoundStream;声网也推出自研 AI 音频编解码器 Silver。


但其实这类编解码器具体解决了哪些问题?目前暂时还是没有的,AI Audio Codec 计算复杂度过高,易导致 IoT 和移动端设备出现功耗过高、发热等问题,另外还存在算法鲁棒性的问题。所以目前基本是当一个“黑盒子”在使用,当这些问题解决后,可能在音频领域会有一个很大的提升。


很多技术在刚推出时因为没有明确的落地场景,会被很多人质疑是不是业内的“自嗨”行为,但其实不是这样。还是以 AI Codec 为例,如果只是为了解决语音通话,那引入 AI Codec 完全是一种“数值党”的行为,属于大炮打蚊子。但对其他领域而言,绝对是有非常广阔且重要的价值的。


如果不进行尝试,哪怕是过渡性的尝试,永远都找不到新大陆。



Part 3


8、从您的视角来看,目前音频领域在产业和学术研究中的侧重点存在哪些不同?

这个话题我还是有一些经验和思考想和大家分享。网易云音乐的产学研结合就是我在负责,浙江省数字音乐人工智能重点企业研究院也是我在牵头参与,所以我和很多高校相关科研团队进行过深入的交流。


在我看来,产业和学术两侧目前最大的不一致是目标的不一致,用互联网的话来说就是 KPI 不一致。


我举个例子,音乐里的音频检索技术,也叫音频指纹,这一技术在当下音乐流媒体平台很有用,在实际工程应用中也碰到不少困难。主要待解决的问题有音频指纹的鲁棒性,能不能适用于翻唱、变速播放,如何减小指纹的大小,降低服务器的成本等。但学术界已经把这个起步于 20 年前的技术完全忽略掉了,觉得再去研究这方面的问题,难于在理论上取得突破也不容易出高质量的论文。


另一点就是对时间或者对进度的要求不一致。校企合作中对高校而言,最愿意接受的形式是企业出资,我们一起培养一个博士,几年之后我们给你输出人才和他的研究成果。但对企业而言,这种形式的时间和结果都具有很强的不确定性,是不可量化的,会存在很大的风险。


要想解决这个问题,可能还是要多交流、多沟通。企业需要把具体的需求和考虑的问题准确且清晰的和高校科研团队做沟通,并且找到真正对口的高校或者特定的实验室、研究所。大家开诚布公的来聊,才能找到最适合的合作模式。


9、业界有人曾提出“音频领域存在人才断层和割裂的问题”,您怎么看这个观点?

这个想象确实存在。我和很多企业音频团队的人做过沟通,大家普遍认为如果能找到一位很懂数字信号处理、能通过数字信号处理解决音频问题的人,那一定要重点培养、好好照顾。


这背后反应的现象,其实是人工智能和深度学习太火了,会导致很多高校的学生都会跟风进入这个领域,借助开源项目基于深度学习做相关的项目或者研究,导致很少有人会扎根基础,研究如何搞好底层的数字信号处理。例如在面试校招生的时候,能把自适应滤波原理和各个滤波优缺点讲得地很清楚的学生不多。


另外就是音频技术在很多公司中都会涉及,但音频团队从规模和产出层面都没有图像或者视频那样的显著,这也会导致很多音频人才的转型和流失。


还有一点就是音频技术在知识点或者能力划分层面实际上比视频还要多、还要难。业界有一个普遍的认知,从音频转向视频是很容易的,但从视频转向音频的门槛会很高。哪怕音频领域内部转型都是很困难的,一方面是音频的技术栈太杂、太细分,另一方面是不同场景也会有不同侧重点的需求,这就导致人才很分散,很难流动。


如要想把音频做好,其实是需要一定鉴赏能力的。虽然说音质好坏有一些客观的衡量指标,比如各种会场、影院之类,都会花重金请第三方评测机构来进行音质和音效的测评,我们在很多项目当中,也会尽量做到效果可量化。但从本质上来看对于声音质量的研究有一定“玄学”的成分存在。


10、对于未来有志于从事音频技术开发的人,您能否从自身的经验出发给出一些建议?

首先还是非常鼓励大家加入音频技术领域。音频技术是对人类听觉系统的延伸,所以人们对这个领域肯定会有强需求且是永无止境的,这也就代表着只要你有一定的能力,那么在大环境不好的情况下失业风险也不会高。


对于想加入这个行业的朋友,我也有两个方面的建议。


第一点是热爱和好奇心。


如果平时不会去体验一些音频相关的产品,或者对音质好坏和新出的音频相关新技术持无所谓的态度,那其实不建议你从事这个行业。音频行业里很多从事业者,对声音甚至达到了痴迷的态度,比如我曾经和一些朋友一起做过一个声音博物馆项目,专门收集各种各样的声音,分析声音对于人类不同情绪的影响和价值。如果真的想从事音频领域,你需要热爱这个行业、热爱声音,只有这样才能做得深入、做得长久。


关于好奇心,浙江大学副教授、声音研究者王婧曾经说过一个观点:“声音不需要依赖人类存在,但人类需要声音来认识世界、存在于世界。”音频这个领域包含着很多的未知,只要你有好奇心,就能在声音的世界中找到宝藏。


落到具体的实践中,音频领域其实有很多优秀的学习资料,又有大量基于行业、应用场景的开源项目,只要你有兴趣,想入门是很简单的。我在招聘应届生的时候会有一个衡量标准,就是有没有做过音频领域相关的开源项目或者为开源项目做过贡献,如果有的话我会认为他对音频有着足够的好奇心,在我这里会大大的加分。


第二点是要考虑具体的行业情况。以我个人经历来说,RTC 领域和音乐行业对音频技术就有着非常不一样的要求。想从事音频行业,一定要有很强的音频技术基础,然后根据所在的行业做针对性的强化学习,成为所在行业的专家,否则很难做出突破。


11、看到您有教您的孩子下围棋,正好前一阵高考题中有提到围棋的“本手、俗手、妙手”,您认为在音频项目开发中,是否同样有这三种手?

 

这个是相通的,每个领域都会有这三类角色,在音频项目开发中自然也有。但本手、俗手、妙手作为三种不同的状态,其实也并不是一成不变的,在不同场景下会相互转换。


绝大多数情况下,日常工作属于本手,例如通过常规的数字滤波器去做一些音效算法,满足应用场景,这就属于通过很常规、通用的方式完成工作。

 

妙手我觉得是大道至简,用最简单的方法解决最主要的问题。例如歌声合成中,最难的问题就是解决合成歌声中情感的问题,要解决这个问题就是有针对性的准备带情感训练数据集,这远比调相关模型来得效果要好。这也是一个很巧的方法。


俗手往往是对需求底层理解不透,花大力气做出高大上的功能,但用户无感知。比如我们前面提到的老奶奶缝牛仔裤的故事,就很典型。



(正文完)





READING
采访札记

在采访的最后,对技术和科技发展既期待又恐惧的我提了一个问题 —— “随着我们对声音在心理学、神经学领域研究的深入,会不会带来一些潜在的社会性风险?”


刘华平老师表示所有技术的发展,都需要正确的引导和管控。但声音在这些领域的研究已经有了一些正向的实验成果。


比如通过特殊的声音来改善助眠;通过音乐来治疗自闭症、缓解焦虑等等。听起来很玄学,但实际上是有底层科学的逻辑和数据支撑。有一个通过 3D 音效来助眠的节目,目前已经有了几个亿的播放量。


关于音乐和情绪的关系,刘华平老师提到他女儿和他共享了网易云音乐的歌单列表,从列表中他可以大概了解到女儿的情绪变化,这也成为了他们父女之间一种默契的沟通方式。


—— @阿遂




关于 声网开发者 x 人物专访


「声网开发者」系列人物专访是声网推出的文字类访谈节目。区别于纯粹的技术分享,我们相信开发者本身的思想与经验具备更加丰盈的价值。希望通过这个栏目链接优秀开发者,挖掘技术黄金时代背后,源于每一位开发者个体的力量。


【声明】内容源于网络
0
0
RTE开发者社区
RTE 开发者社区是聚焦实时互动领域的中立开发者社区。不止于纯粹的技术交流,我们相信开发者具备更加丰盈的个体价值。行业发展变革、开发者职涯发展、技术创业创新资源,我们将陪跑开发者,共享、共建、共成长。
内容 1122
粉丝 0
RTE开发者社区 RTE 开发者社区是聚焦实时互动领域的中立开发者社区。不止于纯粹的技术交流,我们相信开发者具备更加丰盈的个体价值。行业发展变革、开发者职涯发展、技术创业创新资源,我们将陪跑开发者,共享、共建、共成长。
总阅读33
粉丝0
内容1.1k