清华大学的窦维蓓教授无疑是一位经验丰富且一直不断探索新领域的前辈。她与苏州大学肖仲喆老师合作研究的《双标签汉语情感语料库MES-P》在交流峰会上获得优秀论文奖。会后,窦维蓓教授同 21dB 分享了她的科研经历。
窦维蓓教授加入清华大学电子工程系已有二十余年,先后从事数字信号处理、基于数字信号处理器的系统设计、数字音视频信号处理等教学工作;从事数字电视、数字音频广播和基于磁共振成像(MRI)技术的多模态神经影像数据处理和信息挖掘等领域的科研工作;并组建了清华大学电子系“多模态数据处理系统研究室”。同时,窦教授还担任中国数字音视频编解码技术标准工作组(AVS)音频组组长,中国信标委多媒体分委会、ISO/IEC JTC1/SC29 WG11专家委员,负责音频标准的编制和评审工作;也是中国电子学会、声学学会声频工程分会委员。
窦教授多年来在音频领域的贡献和未来的研究方向, 21dB 想用一句话来描述,便是“中国声音,治愈人心”。

让世界听见中国的声音
关注音视频编码的朋友或许知道,中国的第二代 AVS 标准——AVS2。随着AVS2 音频(AVS2-P3)标准被颁布为国家标准(标准代号GB/T33475.3-2018),且于2019年1月1日正式实施,我国的音视频产业有了新的强有力的支撑。而窦维蓓教授正是 AVS 音频组的组长。
回望世纪初,影碟市场就像千禧年的喜庆气氛一样,热闹欢腾。但这份热闹之中却有一股冷冽肃杀之气——中国音视频行业的头上悬着一柄利刃:没有自己的编码标准。“为了解决 VCD、DVD专利授权的高收费问题,咱们国内就开始研究有自主产权的 EVD(Enhanced Versatile Disk,增强型多媒体盘片系统)。”窦教授说。其中 VCD 采用 MPEG-1 标准,DVD采用 MPEG-2 标准。而此时,国内仍没有一套自主可靠的音视频编解码标准,每年仍要交一大笔专利费给外国公司。
于是在2002年,数字音视频编解码技术标准工作组(简称“AVS 工作组”)正式成立,旨在面向我国的信息产业需求,制订数字音视频的压缩、解压缩、处理和表示等共性技术标准,为数字音视频设备与系统提供高效经济的编解码技术,服务于各类相关的产业应用。窦教授回忆道:“AVS工作组成立的初衷,是以国内专利技术和公有技术为基础来制定中国自己的音视频标准,以合理的专利授权政策解决外国公司音视频技术方面专利授权高收费问题。”
“在早期的数字电视领域,国际上有两个主流的音频编码标准,一个是杜比AC3,另一个是 MPEG 的layer2。”大家对杜比应该比较熟悉,现在很多城市都有使用杜比全景声技术的影院,许多电脑甚至手机上也都有了杜比音效认证,风头一时无两。而 MPEG 则是音频编码界的“扫地僧”。MPEG 制定的 MPEG-1 声音压缩编码是国际上第一个高保真声音数据压缩的国际标准,窦教授提到的Layer 2 是 VCD 采用的标准,而 MPEG-1Audio Layer 3 就是影响了整个世界的 MP3 音频文件编码标准!大家熟知的 AAC(高级音频编码技术,Advanced Audio Coding)格式同样也是MPEG 制定的。要在这“两座大山”之间做出中国的音频标准,压力可想而知。
“在第一代AVS 音频标准制定的同时,DRA成为了行业标准,后来转成国家标准”窦教授说。因为各种原因,第一代 AVS 音频编码技术没有被颁布为国家标准。不过随着需求的变化和研究的突破,技术也在飞速发展变化。窦教授带领着 AVS 音频工作组,开始了制定第二代 AVS 音频标准的工作。
“第二代 AVS 压缩率更高,而且考虑了三维立体声的需求。2004年我回国以后,就开始各种技术研究、筛选、评比,到2007年的时候已经有了很多专利技术积累了。”窦教授说。但是一个标准想要成为国家标准并不是那么容易,尤其是在已有国标的情况下,想要制定同一领域的新的国标更是要经过各种论证和考评。随着3D音频的应用,超高清3D电视伴音和网络音频等应用环境提出了对音频大数据的高效、高质量压缩编码需求。AVS工作组启动了AVS2-P3的制定工作,立足提供完整的高清三维视听技术方案, 制定与第二代AVS视频编码(AVS2-P2)配套的高效音频编码标准。2011年12月AVS工作组音频专题组开始征集AVS2音频技术,2012年向国标委提出国标立项申请。2013年,由国家标准化管理委员会批准:制定《信息技术 高效多媒体编码 第 3 部分:音频》推荐性标准,计划编号20130368-T-469,归口“全国信息技术标准化技术委员会”,由工业和信息化部“数字音视频编解码技术标准(AVS)工作组”承担起草任务,2015年完成。AVS音频组在2015年如期完成技术方案的测评和标准文本的编制,并通过AVS工作组内部评审,提交信标委公示。2016年6月通过信标委审查和评审后,报送了国标委审批。经过两年漫长的等待,2018年6月AVS2 音频(AVS2-P3)标准终于被国标委批准颁布作为新的中国音频编解码技术标准(GB/T 33475.3-2018)。
“从2007年的专利积累,到2018年的国标颁布,算是十年磨一剑吧!”窦教授表示。从2011年开始征集AVS2音频的技术需求和技术提案,到2016年6月通过信标委审查。历经5年,AVS工作组的会议纪要中详细记录了AVS2-P3标准制定过程中所有技术、测试、标准草案等相关提案和输出文件,以及每次工作会议的会议纪要:包括20余次AVS工作组全体会议期间的音频专题组会议,7次音频专题组加会;共收到来自10家AVS会员单位的50余项技术提案,其中27项被采纳,含27项必要专利或专利申请,形成了最终的国标文本(GB/T 33475.3-2018)。AVS2音频标准的主要内容体现在3D音频编码功能、高音质、高效率和先进性四个方面;主要技术特点是以高压缩率和音频对象编码为标志的多声道编码技术。具有技术先进、编解码选项丰富、系统整合度高、配置灵活、适应面广等特点。

随着 AVS2 音频标准的正式实施,AVS2 编解码技术开始在国内焕发生机。全景声科技推出一套“WANOS影院全景声系统解决方案”,采用了 AVS2 音频编码技术。“现在在电影中用的是AVS2音频的高码率选项,如果采用中低码率选项,就可以在网络音乐、流媒体上进一步推广开来了。”
十余年的时间,中国AVS2音频 终于“飞上枝头变凤凰”。在未来,我们也会让世界听见“中国的声音”!
用声音治疗身心
得益于在大学期间学习电视工程专业,窦教授不仅在音频方向有所建树,在图像等其他信号处理方向也有许多研究。窦教授在去法国做访问学者期间,又“分了一个岔儿”:研究多模态信息融合技术,挖掘神经影像数据信息,对人脑神经组织结构和功能病变进行自动定量分析,应用于辅助诊断、疗效预测和指导康复治疗。
而现在,窦教授又开始尝试融合之前所做的工作,在声音(音乐)刺激治疗相关领域开展研究。这里说的声音刺激治疗,是基于各种信号监测、融合分析,从原理上搞清楚不同的声音刺激对人脑神经功能重塑有何种影响、对康复起到什么样的作用。“现在在康复治疗中采用的某些声音刺激治疗方法,已经展现出一定的疗效,但是还缺乏对治疗机理的深度了解。临床中出现同样的治疗方案对于症状几乎相同的患者有不同效果的问题。我们希望通过人脑神经数据的多模态信息融合,挖掘声音信号与人脑神经功能变化的相关性特征,研究对特定个体脑神经功能重塑有效的声音信号和刺激方案,帮助医生解决精准治疗问题。”窦教授说。
迈入声音刺激的康复治疗这个领域并不是一件容易的事情,但也不是一个莽撞的决定。窦教授表示:“音乐确实能对人的心理和生理起到调节作用,你看高考前的考生,还有比赛前的运动员,很多都带着耳机听音乐。而且医学界也在用音乐对一些疾病进行治疗和康复训练了。”不仅是因为音乐治疗在原理上可行,窦教授做出这个决定之前,已经有了很多的积累。在生物信号处理方面,窦教授研究过利用神经影像数据自动检测胶质瘤组织分类和体积的方法、功能磁共振信号处理和神经功能重塑特征分析方法;做过脑卒中患者康复过程中的的神经影像信号特征分析和康复评估,以及针刺麻醉的核磁波谱分析等。得益于对多模态数据处理和信息融合的研究积累、对音频信号处理方面的研究经验,以及1985年在南开大学社会调查方法研究班学习的社会学、心理学、统计学等方面的基础。
使得她有底气走进一个新的领域。

但在声音刺激治疗研究领域仍然存在很多的难题。“做(声音刺激治疗)的人太少了,不过我现在找到了医生进行合作。”窦教授表示,窦教授考虑通过脑电信号、磁共振信号、以及脑磁信号,跟踪分析声音刺激治疗过程中的大脑组织结构和神经功能变化特征;融合医生的治疗经验、患者的感受和临床评估,使用多模态数据融合,分析出不特征的声音和不同的刺激方法影响大脑组织和神经功能的机理,使得声音刺激的治疗方法高效可控、更具针对性。
窦教授的经历,正如乔布斯演讲中提到的“Again,you can't connect the dots looking forward. You can only connect them lookingbackwards, so you have to trust that the dots will somehow connect in yourfuture. ”,在某一天我们会把之前做的许多事情串联起来,这些过去的所为共同决定了今天的成就。同样,声音与医学的结合,让我们看到了声音无限的可能性。音乐不仅是一种享受、一种倾诉,也可以是治愈身心的良药。给声音以想象力,敢教人间换新颜!
永远热爱,不忘初心
采访的最后,我们询问了一个诸位或许也迫切想要知道的问题:年轻人比较容易受到环境影响,现在人工智能如此火爆,在传统的科研方向和人工智能之间应该如何权衡,才可以在自己的科研或者工作中取得成就呢?
窦教授表示:“现在的学生,能读到硕士、博士,(想要做出成果)智力上应该是都没问题。重要的是态度,你对你的研究是否有兴趣,是否热爱你所从事的工作。如果一个事儿别人都能做你也去做,或者看到别人都去做你就跟风去做,那怎么体现出人生的价值呢?你越是解决人家解决不了的问题,越能体现你的人生价值。”
就如《礼记·大学》所言:格物致知,诚意正心。不管是搞科研还是做工作,首先要端正态度,要有兴趣,要热爱,不能摇摆不定、盲目随大流。坚定地对你的方向进行研究和探索,才可能有所成就,绽放出人生不一样的光芒。
刘锋、杨婉雨、宋哲超参与了采访。
声明:本公众号转载此文章出于非商业性的教育和科普目的,并不意味着支持其观点或证实其内容的真实性。版权归原作者所有,如转载文章涉及版权等问题,请立即联系我们,我们会予以更改或删除,保证您的权利!
文章来源:21dB声学人
2021年声学楼16周年年会
年会系列活动
正在火热开启!
在活动现场
你将能与大咖近距离接触
和兴趣相投的伙伴交流
这是积累专业知识经验和人脉的好机会!
还不快来?
声学楼论坛作为国内音频技术专业等级最高、历史最悠久、用户量最多、覆盖面最广、深受行业关注与高度认同的声学技术交流平台。致力于展现全球声学领域的最新技术与应用,与中国音频行业共同成长十六年,影响深远。必将引领声学产业新的潮流,与我们共同迎接智能音频科技的最新发展。
本届年会群星璀璨、大咖云集,预计将有:
★50+智能音频相关领军企业
★80+海内外顶级专家
★60+重量级主题演讲
★200+产业链相关企业
★10000+专业观众
举办时间:2021年12月11-12日
举办地点:金百合大酒店,深圳市西丽湖路4038号
咨询热线:王先生,13040862728/13928889468,0755-26689060
电子邮箱:szaacn@126.com
中国声学学会
深圳市音响行业协会
声学楼论坛
中国听力医学发展基金会
南京大学魏荣爵基金会
上海市浦东新区先进音视频技术协会
深圳市跨境电子商务协会
智慧影音产业联盟
这里是声学楼
微信公众号
acousticsblock
请点击二维码关注公众号



