PART1

2015年至2018年,自出门问问发布第一代TTS引擎起,历经多次迭代,已将语音合成系统的效果不断趋近“以假乱真”。
2019年8月,出门问问再次实现新的技术突破,推出业界领先的第四代语音合成系统 MeetVoice,MeetVoice自发布以来被深度应用于出门问问各类产品线以及各类ToB厂商,并在知名AI配音神器——「魔音工坊」规模化落地数百款声音,深受用户好评。
近三年来,随着短视频行业的迅猛发展,我们的用户对合成效果提出了越来越高的诉求,问问团队在 MeetVoice 模型上持续升级,推出了包括停顿调节、48K超高清、重读/拖音、声音转换等功能,广受用户喜爱。
但是,AI声音如何能真正地“媲美真人”,让用户“难辨真假”,一直是出门问问TTS团队技术攻坚的核心目标。
PART2
时隔三年,2022年7月,MeetVoice迎来了完全端到端的TTS方案——MeetHiFiVoice。相较2019年8月上线的MeetVoice版本,该系统不再需要分开训练声学模型和声码器,一个模型即可进行完全端到端的训练。
模型架构虽然变得简单了,效果却变得更出众:简单的架构,成就不简单的音质。
下面我们来对比一下魔音工坊Top发音人新旧模型的效果:
魔小杰

MeetVoice版本:
MeetHiFiVoice版本:
杨婧

MeetVoice版本:
MeetHiFiVoice版本:
MeetHiFiVoice在音质、自然度、韵律上是不是都有革命性的提升?MeetHiFiVoice,让你与高品质配音相遇在魔音。
与此同时,MeetHiFiVoice不仅对高品质录音的数据有提升,而且对带混响或噪声的数据也更鲁棒,进一步解放了对录音条件的苛刻约束。
带混响数据的新旧模型效果对比:
下面我们来欣赏一段视频(大部分为魔音工坊用户制作的视频片段),看看MeetHiFiVoice加持下的魔音工坊发音人,做出来的作品配音效果是否足够以假乱真?
PART3
在大众的固有印象中,AI配音总是给人机械的印象。那么人工智能经过这么多年的发展,TTS是否已经摘掉了“一听就是机器人”的帽子呢?
三年前,我们针对MeetVoice的合成效果进行了一次”以假乱真“的声音鉴别投票,投票结果如下图。投票数据显示,当时的AI和真人的声音已经接近“傻傻分不清”了。不过当时参与投票的发音人比较少,并且合成的音频也都是训练集里的,有一定的取巧成分,本身说服力还不够强。

这次,我们组织了近两百人的评测,应用了8位发音人(分别是「魔音工坊」的满超ZN、采采、杨婧、魔千雪、魔小杰、魔天轮、魔小凡、魔丽娘),并且合成的声音不再使用训练集里的文本,评测的方式也不再是同一个文本的真人/合成音频对比,而是更加挑战地对一条音频进行真假判断。
邀请超过150人参与比赛;
设置奖项,让大家都能够认真听音频投票,而不是应付了事;
使用32条音频,设置32个投票。参与的用户只需要听该音频,投票该音频是“真人”还是“合成”。投票前,不告知用户真人和合成的比例等额外信息;
投票数少于30条音频的用户作废,不计入统计。
以下是某支音频的投票结果:

可以看到,该条音频总共有190人参与投票,投真人106票,投合成84票。
我们先来听听这条音频:
再分析看看最终的评测结果,以下是总体的投票信息:

由此可以看到,在本次投票中,大家倾向于认为音频是合成的(虽然实际上真人和合成的比例是5:5)。那么,对32支音频的判别准确率怎么样呢?大家接着看下面的详细数据。
对32支音频的投票结果进行分析:

从上面的表格可以看到,音频的平均准确率只有59.4%,而盲猜的准确率也会有50%,说明真人的辨别能力,和盲猜结果相差无几。
大概有10条音频,真人和合成的得票数在40%-60%之间,也就是说,大部分人都无法分辨出来。
对176个投票用户的投票结果进行的分析:


从以上图表可以看出,准确率低于盲猜(50%准确率,即50分)的用户,达到了19.9%,说明对这部分用户而言,合成已经真正达到“以假乱真”。而得分为60分以下的用户,占到了55.7%,也就是说,过半的用户,已可以在一定程度上辨别真假,但是接近盲猜(高了不到10分)。176个用户里,最高得分为75分。
另外, 我们还重点看了下三位声音领域的专业用户的投票结果(其中C和D是专门邀请来进行测试的,不在统计的176个用户里)。

专业的主播和配音从业者,也很难有效判断出某个音频是AI还是真人,更何况对声音不太敏感的普通大众?看到这里,你还会认为“AI配音很机械”,或“配音还是得使用真人,否则效果不自然”么?
是的,媲美真人的配音时代已经来临!
下面我们来听几支音频,看看哪些音频是比较容易被AI克隆的,哪些是AI难以逾越的。
先听听看,你认为哪支是真人,哪支是AI?两支均为真人或AI?
先来看看“以假乱真”的音频1。上面这支采采的音频,有高达55.8%的用户认为它是真人原声,而不是合成的。有一些投票用户认为,该音频“有吐气之感”,确信它是真人,而不是合成的。
再来看看“真人”的音频2。满超老师的这支音频,目前对AI而言,依然是不可逾越的高峰。由于满超老师的演绎水平很高,可能导致大部分用户认为AI目前做不到这个水平,所以有75%的用户投票“真人”。满超老师已经入驻魔音工坊,他和杨婧老师的《斗罗大陆》有声书,堪称有声小说的标高,有兴趣的朋友可以在“云听”收听两位老师的精彩演绎。
再来听听满超老师激情风格的样音,看看真人可以做到多“真”,张力多强:
当然,主播的演绎越好,风格越多变,对AI来说越是无法逾越的高峰。不过技术在持续进步,路漫漫其修远兮,魔音工坊团队也会持续勇攀高峰,争取开发出更好的AI模型以飨用户。

