智能语音技术正在改变着我们的生活。
刘俊华
科大讯飞AI研究院副院长
语音技术的背景
为什么说语音比较重要?在200万年前诞生了远古人类,7万年前智人出现并在竞争中胜出,不断发展和演进成目前的人类社会。在那么恶劣的环境下如何胜出至今是一个谜团。目前一个被大部分人接受的观点是语音和语言的出现,语言能够让智人形成一个有效性的团体,通过集体的力量和智慧战胜恶劣的环境。所以,当上世纪50年代人工智能技术概念提出之后,如何让机器拥有能听会说、能理解会思考的能力,一直是很多科学家不断追求的目标。
什么叫智能语音技术?它其实是在信息时代让机器能够像人一样“能听会说”的技术,包括语音合成、语音识别、语音评测、语音增强、以及声纹识别和语种识别,这是目前语音技术大概的范围。
语音技术是一个典型的交叉性学科,研究方向不仅涉及生理学、语言学和社会学,同时也涉及到声学以及计算机科学。特别是近些年来发展起来的模式识别和机器学习,对于推动智能语音技术的发展起到非常关键的作用。
在我们身边有很多真实的应用场景。第一个是在2010年的时候推出了语音输入法,目前一分钟大概能说400字,这对手写和键盘输入是不能想象的;第二个是大家经常会用到的高德地图导航,导航里面的声音可以用来合成任意文本信息;还包括与Siri交互。除了这些之外,目前在智能家居、智能车载系统中也有广泛的应用,以及客服和医疗、教育等产品都有比较大的应用前景。
正是因为语音技术是最基础的能力,而且是人类最自然和快捷的交流方式。所以国家高度重视语音和语言技术的发展,在2017年科技部发布的首批人工智能开放创新平台中,将语音技术作为四大基础平台之一。科大讯飞有幸成为智能语音开放平台的承建单位。工信部制定的人工智能发展规划也把培育智能产品作为重要的方向。
语言合成
语音合成能够将文本状态信息合成任意的声音,让机器开口说话。我们有一个比较简单的传统波形合成系统。首先给一个文本序列,通过发音词典或者通过规则的方法,能够分析出发音序列,比如说把“中国”转化为汉语拼音的序列。基于这一系列动作,接下来再预测出停顿信息、重音的信息及上下起伏的信息,然后从大的音库中挑选出每个发音单元对应的波形拼接起来,经过一定的处理就能得到输出合成声音。
语音合成技术目前经过了极大发展,上边的方法是比较原始的方式,小规模语音库的拼接合成。在商业化的过程中就会发现这些方法做研究没问题,但还是满足不了实用需求。所以我们在2000年左右的时候推出了大规模语料库的语音合成系统。除此之外,这个系统也包括发音资料,但是缺点是音库比较大,放到服务器上的云端比较好,但是如果想把它放到了一个嵌入式的设备上很难。基于这个问题,我们后来提出了基于参数合成的方法,把语音库里面的很多信息进行建模,把模型参数存到芯片里面,规模就压下去了,能够实现比较流畅的发音。
目前人工智能广泛应用的深度学习技术,能够把前端的文本分析更加精准,也能够发挥出大数据的优势,克服传统参数合成比较平滑的缺点。深度学习不一样,它的学习能力非常强,所以能够充分利用大规模的语料库信息。
这个图就是目前科大讯飞所采用的技术框架,我们叫基于听感量化编码的语音合成。它有两个好处,第一是整个架构基于深度学习,通过对信息感情和风格进行量化和建模,实现多人声音统一建模。在很多情况下,我们通过控制音色变量,让同一个人说不同的语言。第二是可以通过大规模基础语料训练,合成一个新的发言人的时候就不需要那么多数据。我们只需要5分钟的数据,就有可能实现比较好的效果。其实在产业化应用的时候,基于已有的大数据,开发新的发音人的声音,制作周期从原来半年减少到两周。
科大讯飞1999年成立,以语音合成技术起家。2006年为了评估技术在全球的业绩能达到什么水平,我们参加了Challenge国际语音合成大赛,截止到2019年连续14年蝉联比赛冠军。
语音合成的应用
在很多的场景中我们可能会听到已经去世的李易老师的声音。有人可能会说李老师已经去世了,为什么还能够出来继续配音?其实这是机器通过学习李老师生前的作品中发音特点和音色特点,从而达到这种效果。
目前全球化发展非常之快,在对外沟通的过程中,涉及到很多语言障碍。语音翻译其实已经达到了比较好的运用水平,语音合成技术在跨国交流起到非常好的作用。
有声阅读在很多场景下能够产生比较大的应用,对于大飞机的语音交互系统合成也非常关键。如果有一个比较合适的声音,会让你的主观体验提升一个量级。
语音合成未来发展方向
语音合成技术发展未来的方向,第一是用少量的特定的发言人数据,甚至不用数据就能够合成出高质量的声音。举个简单的例子,目前大家都特别重视小孩教育,故事机播报声音都是指定的声音。如果换成爸爸妈妈的声音,孩子的感受会明显不一样。再比如我们客服的声音目前还都是标准的发言人,如果换成亲密朋友的声音,就是个性化的合成。
第二是除了语音合成之外,其实目前大家也在挑战另外一个场景:多模态语音合成,它的核心不仅局限于语音,通过语音驱动人的嘴唇和脸型的同步变化,形成虚拟主播形象。这个其实是我的同事,她其实只会中文,不会用其它语言。但是我们通过语音合成技术和虚拟的形象技术能够让她用多国语言,对于新闻播报有很大的市场前景。
语音识别
语音识别通过机器自动的将语音信息转换成文字信息,输入是语音输出,输出是文字。
语音识别其实早在上世纪50年代就开始了,但是最早研究的时候,还局限于类似数字的孤立词识别。80年代,李开复老师第一个提出了较大规模大词汇量的连续语音识别技术,这个计算方法叫做基于高斯混合模型和隐马尔可夫模型的方案,这个方案虽然能够实现连续识别,但是效果一直不尽如人意。直到2010年有新的突破,即深度学习网络。而且他们的结合能够大幅推动语音识别技术的进展,包括我们最近10年的语音技术的产业化。这都来源于技术的重大突破。而且最新的语音识别技术,采用了端到端的方案,不仅能够实现单个语种的语音识别,也能实现混合语种的识别。
我们通过两幅图来给大家展示一下相关进展情况,左边这幅图是在语音行业标准的几个测试集上的性能提升,横轴是时间,纵轴是识别错误时间,错误率越低越好。比较典型的Switchboard集合为例,在2010年的时候当时错误率大概是35%的水平,也就是正确率只有65%。经过将近10年的发展,目前的错误已经下降到5.9%,达到94.1%的准确率水平,这个进展还是非常之大。
第二个例子是以科大讯飞在实际业务中的输入法产品为例,我们从2012年86%的正确率,到目前为止每年以30%的性能提升,达到97%以上的水平。这就是目前语音识别技术的最新进展情况。
语音识别面临的挑战
第一个挑战是复杂远场的识别问题。其实学术界组织的比赛是CHiME语音分离与识别大赛,在2018年的时候就推出了相应的集合。可以看到这两幅图里面非常复杂,一个是在厨房里面做饭的时候声音的录制情况。第二个是在起居室里面,大家坐在一起聊天的情况下。在这种情况下做语音识别,错误率就非常高。在2018年的时候,这个错误率大概是46%,在刚刚结束的2020年的最新的结果里面到了30%。大家看起来还不是特别容易看懂,还需要持续的提升。远场和复杂环境下的语音识别,其实也是非常的关键性的技术,它可能是通过麦克风阵列等才能解决这个难题。
第二个叫做方言识别。目前我们还是针对中文普通话和英文这种标准的、资源比较丰富的语种进行识别,而在实际推广过程中其实会遇到很多方言识别现象。比如说我们在做智能家居的人机交互系统的时候,不会说普通话,该怎么去处理?虽然我们已经做了很多储备,但是我觉得还是很大的挑战,也还是没有完全解决的。
第三个挑战是国外语言识别问题。中国经过40年的改革开放,已经取得了非常大的进步,成为手机家电甚至飞机的生产大国。我们在做产业升级的时候,无可避免的也遇到了多语种的语音识别的问题。目前我们也是在积极推动研发之中。
语音听写的应用
下面我们简单看一下应用的情况,第一个用的是讯飞输入法,2011年推出可谓见证了语音产业的发展,从最初的660万用户规模,目前累积已经有6亿的用户群体。刚才也说到了最新的语音识别,不仅能够识别单个,也可以实现多个语言。
第二个应用场景是转写场景,就是类似于大会场景,人和人交流比较常见,这个场景比对着机器讲更难。做成之后也会有更大的一些商业化前景,包括同传都是基于语音转向技术的应用情况。
语音增强
接下来看一下语音增强的技术进展情况。它是从噪声背景中提取出有用的语音信号,目前广泛应用麦克风阵列的技术方案对混响、对一些其他人的干扰进行去除。它是一起通过多个麦克风输入信息,采用信号处理的方式去除混响等噪声干扰情况。
我觉得它的应用还是比较广泛的,如会议场景,能够把目标声音提取出来,包括人机交互的场景里面比较远的场景,甚至汽车里面声音的场景,通过该技术能够得到更好的音质效果。另外,也包括医疗场景,智能家居,安防以及超远距离的场景。比如说当年齐达内在赛场上产生冲突的时候,他们说的什么东西我们都不知道,只是通过肢体冲突来判断犯规,但是如果我们知道这个信息的情况下,可能会做出更加公平的判罚。
声纹识别
声纹识别是根据语音反映出说话人生理的特征,自动去判断谁在讲话。基本上有两种比较典型的应用模式,第一种根据语音判断出一个大的声纹库里面是谁在讲话;第二种是判断给定的语音和说话人模型到底是不是同一个人,在门禁系统里面应用还是比较多的。
就技术路线来看,目前采用端到端模型,相比传统机器学习方法在目前最新的集合提升还是非常之明显,应用其实也比较多,包括金融支付、安全和诈骗治理。这里面有个典型的反电信诈骗应用,有很多诈骗分子的声音抓到之后,就可以把他找出来。包括个性化服务,比如说在家庭里面,不同使用人员的喜好是不一样的,如果我们分辨出是谁,就可以推出不同的服务。
未来发展我觉得可能有三点:第一点是声纹的敏感性还需要提升,因为它是弱信息;第二点是需要克服短时识别问题;第三点是声纹识别和语音合成是一个矛盾体,假音检测也是非常关键的一个方向。
刘俊华 科大讯飞AI研究院副院长
版权说明:未经授权严禁任何形式的媒体转载和摘编,并且严禁转载至微信以外的平台!
长按扫码关注
“致未来·C-Talk演讲大会”由中国商飞北研中心发起,中国民航科学技术研究院、中国航空研究院、北京航空航天大学和科学出版社联合出品,上海瀚海检测技术股份有限公司协办。本活动聚焦航空产业前沿,分享新知识和新观点,激发创造灵感,促进跨界融合,引领创新发展。
◆ ◆ ◆


