致未来·C-Talk | 刘俊华：与声音共舞智能语音技术的进展与应用- 大数跨境

首页

致未来·C-Talk | 刘俊华：与声音共舞智能语音技术的进展与应用

大飞机丨北研中心

2020-06-12

智能语音技术正在改变着我们的生活。

刘俊华

科大讯飞AI研究院副院长

语音技术的背景

为什么说语音比较重要？在200万年前诞生了远古人类，7万年前智人出现并在竞争中胜出，不断发展和演进成目前的人类社会。在那么恶劣的环境下如何胜出至今是一个谜团。目前一个被大部分人接受的观点是语音和语言的出现，语言能够让智人形成一个有效性的团体，通过集体的力量和智慧战胜恶劣的环境。所以，当上世纪50年代人工智能技术概念提出之后，如何让机器拥有能听会说、能理解会思考的能力，一直是很多科学家不断追求的目标。

什么叫智能语音技术？它其实是在信息时代让机器能够像人一样“能听会说”的技术，包括语音合成、语音识别、语音评测、语音增强、以及声纹识别和语种识别，这是目前语音技术大概的范围。

语音技术是一个典型的交叉性学科，研究方向不仅涉及生理学、语言学和社会学，同时也涉及到声学以及计算机科学。特别是近些年来发展起来的模式识别和机器学习，对于推动智能语音技术的发展起到非常关键的作用。

在我们身边有很多真实的应用场景。第一个是在2010年的时候推出了语音输入法，目前一分钟大概能说400字，这对手写和键盘输入是不能想象的；第二个是大家经常会用到的高德地图导航，导航里面的声音可以用来合成任意文本信息；还包括与Siri交互。除了这些之外，目前在智能家居、智能车载系统中也有广泛的应用，以及客服和医疗、教育等产品都有比较大的应用前景。

正是因为语音技术是最基础的能力，而且是人类最自然和快捷的交流方式。所以国家高度重视语音和语言技术的发展，在2017年科技部发布的首批人工智能开放创新平台中，将语音技术作为四大基础平台之一。科大讯飞有幸成为智能语音开放平台的承建单位。工信部制定的人工智能发展规划也把培育智能产品作为重要的方向。

语言合成

语音合成能够将文本状态信息合成任意的声音，让机器开口说话。我们有一个比较简单的传统波形合成系统。首先给一个文本序列，通过发音词典或者通过规则的方法，能够分析出发音序列，比如说把“中国”转化为汉语拼音的序列。基于这一系列动作，接下来再预测出停顿信息、重音的信息及上下起伏的信息，然后从大的音库中挑选出每个发音单元对应的波形拼接起来，经过一定的处理就能得到输出合成声音。

语音合成技术目前经过了极大发展，上边的方法是比较原始的方式，小规模语音库的拼接合成。在商业化的过程中就会发现这些方法做研究没问题，但还是满足不了实用需求。所以我们在2000年左右的时候推出了大规模语料库的语音合成系统。除此之外，这个系统也包括发音资料，但是缺点是音库比较大，放到服务器上的云端比较好，但是如果想把它放到了一个嵌入式的设备上很难。基于这个问题，我们后来提出了基于参数合成的方法，把语音库里面的很多信息进行建模，把模型参数存到芯片里面，规模就压下去了，能够实现比较流畅的发音。

目前人工智能广泛应用的深度学习技术，能够把前端的文本分析更加精准，也能够发挥出大数据的优势，克服传统参数合成比较平滑的缺点。深度学习不一样，它的学习能力非常强，所以能够充分利用大规模的语料库信息。

这个图就是目前科大讯飞所采用的技术框架，我们叫基于听感量化编码的语音合成。它有两个好处，第一是整个架构基于深度学习，通过对信息感情和风格进行量化和建模，实现多人声音统一建模。在很多情况下，我们通过控制音色变量，让同一个人说不同的语言。第二是可以通过大规模基础语料训练，合成一个新的发言人的时候就不需要那么多数据。我们只需要5分钟的数据，就有可能实现比较好的效果。其实在产业化应用的时候，基于已有的大数据，开发新的发音人的声音，制作周期从原来半年减少到两周。

科大讯飞1999年成立，以语音合成技术起家。2006年为了评估技术在全球的业绩能达到什么水平，我们参加了Challenge国际语音合成大赛，截止到2019年连续14年蝉联比赛冠军。

语音合成的应用

在很多的场景中我们可能会听到已经去世的李易老师的声音。有人可能会说李老师已经去世了，为什么还能够出来继续配音？其实这是机器通过学习李老师生前的作品中发音特点和音色特点，从而达到这种效果。

目前全球化发展非常之快，在对外沟通的过程中，涉及到很多语言障碍。语音翻译其实已经达到了比较好的运用水平，语音合成技术在跨国交流起到非常好的作用。

有声阅读在很多场景下能够产生比较大的应用，对于大飞机的语音交互系统合成也非常关键。如果有一个比较合适的声音，会让你的主观体验提升一个量级。

语音合成未来发展方向

语音合成技术发展未来的方向，第一是用少量的特定的发言人数据，甚至不用数据就能够合成出高质量的声音。举个简单的例子，目前大家都特别重视小孩教育，故事机播报声音都是指定的声音。如果换成爸爸妈妈的声音，孩子的感受会明显不一样。再比如我们客服的声音目前还都是标准的发言人，如果换成亲密朋友的声音，就是个性化的合成。

第二是除了语音合成之外，其实目前大家也在挑战另外一个场景：多模态语音合成，它的核心不仅局限于语音，通过语音驱动人的嘴唇和脸型的同步变化，形成虚拟主播形象。这个其实是我的同事，她其实只会中文，不会用其它语言。但是我们通过语音合成技术和虚拟的形象技术能够让她用多国语言，对于新闻播报有很大的市场前景。

语音识别

语音识别通过机器自动的将语音信息转换成文字信息，输入是语音输出，输出是文字。

语音识别其实早在上世纪50年代就开始了，但是最早研究的时候，还局限于类似数字的孤立词识别。80年代，李开复老师第一个提出了较大规模大词汇量的连续语音识别技术，这个计算方法叫做基于高斯混合模型和隐马尔可夫模型的方案，这个方案虽然能够实现连续识别，但是效果一直不尽如人意。直到2010年有新的突破，即深度学习网络。而且他们的结合能够大幅推动语音识别技术的进展，包括我们最近10年的语音技术的产业化。这都来源于技术的重大突破。而且最新的语音识别技术，采用了端到端的方案，不仅能够实现单个语种的语音识别，也能实现混合语种的识别。

我们通过两幅图来给大家展示一下相关进展情况，左边这幅图是在语音行业标准的几个测试集上的性能提升，横轴是时间，纵轴是识别错误时间，错误率越低越好。比较典型的Switchboard集合为例，在2010年的时候当时错误率大概是35%的水平，也就是正确率只有65%。经过将近10年的发展，目前的错误已经下降到5.9%，达到94.1%的准确率水平，这个进展还是非常之大。

第二个例子是以科大讯飞在实际业务中的输入法产品为例，我们从2012年86%的正确率，到目前为止每年以30%的性能提升，达到97%以上的水平。这就是目前语音识别技术的最新进展情况。

语音识别面临的挑战

语音识别做到这个程度是不是也够用了呢？其实不是这样子的。因为现在的语音识别还是在偏安静场景下的，个人配合达到了一个效果。当我们想更大范围推广应用的时候，它还面临着很大的挑战。

第一个挑战是复杂远场的识别问题。其实学术界组织的比赛是CHiME语音分离与识别大赛，在2018年的时候就推出了相应的集合。可以看到这两幅图里面非常复杂，一个是在厨房里面做饭的时候声音的录制情况。第二个是在起居室里面，大家坐在一起聊天的情况下。在这种情况下做语音识别，错误率就非常高。在2018年的时候，这个错误率大概是46%，在刚刚结束的2020年的最新的结果里面到了30%。大家看起来还不是特别容易看懂，还需要持续的提升。远场和复杂环境下的语音识别，其实也是非常的关键性的技术，它可能是通过麦克风阵列等才能解决这个难题。

第二个叫做方言识别。目前我们还是针对中文普通话和英文这种标准的、资源比较丰富的语种进行识别，而在实际推广过程中其实会遇到很多方言识别现象。比如说我们在做智能家居的人机交互系统的时候，不会说普通话，该怎么去处理？虽然我们已经做了很多储备，但是我觉得还是很大的挑战，也还是没有完全解决的。

第三个挑战是国外语言识别问题。中国经过40年的改革开放，已经取得了非常大的进步，成为手机家电甚至飞机的生产大国。我们在做产业升级的时候，无可避免的也遇到了多语种的语音识别的问题。目前我们也是在积极推动研发之中。

语音听写的应用

下面我们简单看一下应用的情况，第一个用的是讯飞输入法，2011年推出可谓见证了语音产业的发展，从最初的660万用户规模，目前累积已经有6亿的用户群体。刚才也说到了最新的语音识别，不仅能够识别单个，也可以实现多个语言。

第二个应用场景是转写场景，就是类似于大会场景，人和人交流比较常见，这个场景比对着机器讲更难。做成之后也会有更大的一些商业化前景，包括同传都是基于语音转向技术的应用情况。

语音增强

接下来看一下语音增强的技术进展情况。它是从噪声背景中提取出有用的语音信号，目前广泛应用麦克风阵列的技术方案对混响、对一些其他人的干扰进行去除。它是一起通过多个麦克风输入信息，采用信号处理的方式去除混响等噪声干扰情况。

我觉得它的应用还是比较广泛的，如会议场景，能够把目标声音提取出来，包括人机交互的场景里面比较远的场景，甚至汽车里面声音的场景，通过该技术能够得到更好的音质效果。另外，也包括医疗场景，智能家居，安防以及超远距离的场景。比如说当年齐达内在赛场上产生冲突的时候，他们说的什么东西我们都不知道，只是通过肢体冲突来判断犯规，但是如果我们知道这个信息的情况下，可能会做出更加公平的判罚。

声纹识别

声纹识别是根据语音反映出说话人生理的特征，自动去判断谁在讲话。基本上有两种比较典型的应用模式，第一种根据语音判断出一个大的声纹库里面是谁在讲话；第二种是判断给定的语音和说话人模型到底是不是同一个人，在门禁系统里面应用还是比较多的。

就技术路线来看，目前采用端到端模型，相比传统机器学习方法在目前最新的集合提升还是非常之明显，应用其实也比较多，包括金融支付、安全和诈骗治理。这里面有个典型的反电信诈骗应用，有很多诈骗分子的声音抓到之后，就可以把他找出来。包括个性化服务，比如说在家庭里面，不同使用人员的喜好是不一样的，如果我们分辨出是谁，就可以推出不同的服务。