出门问问重磅发布第五代TTS引擎MeetHiFiVoice_大数跨境

首页

出门问问重磅发布第五代TTS引擎MeetHiFiVoice

魔音工坊

2022-08-15

333

导读：AI配音媲美真人？数百人测试结果为你揭晓

近日，出门问问重磅推出第五代TTS引擎 MeetHiFiVoice，在发音人音质、韵律节奏等方面均有质的提升，将“媲美真人”的AI配音效果再次推向新的极致高度。

PART1

出门问问TTS引擎发展史

持续实现技术突破

出门问问重磅发布第五代TTS引擎MeetHiFiVoice

2015年至2018年，自出门问问发布第一代TTS引擎起，历经多次迭代，已将语音合成系统的效果不断趋近“以假乱真”。

2019年8月，出门问问再次实现新的技术突破，推出业界领先的第四代语音合成系统 MeetVoice，MeetVoice自发布以来被深度应用于出门问问各类产品线以及各类ToB厂商，并在知名AI配音神器——「魔音工坊」规模化落地数百款声音，深受用户好评。

近三年来，随着短视频行业的迅猛发展，我们的用户对合成效果提出了越来越高的诉求，问问团队在 MeetVoice 模型上持续升级，推出了包括停顿调节、48K超高清、重读/拖音、声音转换等功能，广受用户喜爱。

但是，AI声音如何能真正地“媲美真人”，让用户“难辨真假”，一直是出门问问TTS团队技术攻坚的核心目标。

PART2

新一代TTS引擎MeetHiFiVoice上线

问鼎配音极峰

时隔三年，2022年7月，MeetVoice迎来了完全端到端的TTS方案——MeetHiFiVoice。相较2019年8月上线的MeetVoice版本，该系统不再需要分开训练声学模型和声码器，一个模型即可进行完全端到端的训练。

模型架构虽然变得简单了，效果却变得更出众：简单的架构，成就不简单的音质。

下面我们来对比一下魔音工坊Top发音人新旧模型的效果：

魔小杰

MeetVoice版本：

MeetHiFiVoice版本：

杨婧

MeetVoice版本：

MeetHiFiVoice版本：

MeetHiFiVoice在音质、自然度、韵律上是不是都有革命性的提升？MeetHiFiVoice，让你与高品质配音相遇在魔音。

与此同时，MeetHiFiVoice不仅对高品质录音的数据有提升，而且对带混响或噪声的数据也更鲁棒，进一步解放了对录音条件的苛刻约束。

带混响数据的新旧模型效果对比：

下面我们来欣赏一段视频（大部分为魔音工坊用户制作的视频片段），看看MeetHiFiVoice加持下的魔音工坊发音人，做出来的作品配音效果是否足够以假乱真？

PART3

AI配音能否媲美真人？

数百人测试结果为你揭晓

在大众的固有印象中，AI配音总是给人机械的印象。那么人工智能经过这么多年的发展，TTS是否已经摘掉了“一听就是机器人”的帽子呢？

三年前，我们针对MeetVoice的合成效果进行了一次”以假乱真“的声音鉴别投票，投票结果如下图。投票数据显示，当时的AI和真人的声音已经接近“傻傻分不清”了。不过当时参与投票的发音人比较少，并且合成的音频也都是训练集里的，有一定的取巧成分，本身说服力还不够强。

出门问问重磅发布第五代TTS引擎MeetHiFiVoice

这次，我们组织了近两百人的评测，应用了8位发音人（分别是「魔音工坊」的满超ZN、采采、杨婧、魔千雪、魔小杰、魔天轮、魔小凡、魔丽娘），并且合成的声音不再使用训练集里的文本，评测的方式也不再是同一个文本的真人/合成音频对比，而是更加挑战地对一条音频进行真假判断。

比赛规则:

邀请超过150人参与比赛；

设置奖项，让大家都能够认真听音频投票，而不是应付了事；

使用32条音频，设置32个投票。参与的用户只需要听该音频，投票该音频是“真人”还是“合成”。投票前，不告知用户真人和合成的比例等额外信息；

投票数少于30条音频的用户作废，不计入统计。

以下是某支音频的投票结果：

出门问问重磅发布第五代TTS引擎MeetHiFiVoice

可以看到，该条音频总共有190人参与投票，投真人106票，投合成84票。

我们先来听听这条音频：

再分析看看最终的评测结果，以下是总体的投票信息：

出门问问重磅发布第五代TTS引擎MeetHiFiVoice

由此可以看到，在本次投票中，大家倾向于认为音频是合成的（虽然实际上真人和合成的比例是5:5）。那么，对32支音频的判别准确率怎么样呢？大家接着看下面的详细数据。

对32支音频的投票结果进行分析：

出门问问重磅发布第五代TTS引擎MeetHiFiVoice

从上面的表格可以看到，音频的平均准确率只有59.4%，而盲猜的准确率也会有50%，说明真人的辨别能力，和盲猜结果相差无几。

大概有10条音频，真人和合成的得票数在40%-60%之间，也就是说，大部分人都无法分辨出来。

对176个投票用户的投票结果进行的分析：

出门问问重磅发布第五代TTS引擎MeetHiFiVoice

从以上图表可以看出，准确率低于盲猜（50%准确率，即50分）的用户，达到了19.9%，说明对这部分用户而言，合成已经真正达到“以假乱真”。而得分为60分以下的用户，占到了55.7%，也就是说，过半的用户，已可以在一定程度上辨别真假，但是接近盲猜（高了不到10分）。176个用户里，最高得分为75分。

另外，我们还重点看了下三位声音领域的专业用户的投票结果（其中C和D是专门邀请来进行测试的，不在统计的176个用户里）。

出门问问重磅发布第五代TTS引擎MeetHiFiVoice

专业的主播和配音从业者，也很难有效判断出某个音频是AI还是真人，更何况对声音不太敏感的普通大众？看到这里，你还会认为“AI配音很机械”，或“配音还是得使用真人，否则效果不自然”么？

是的，媲美真人的配音时代已经来临！

下面我们来听几支音频，看看哪些音频是比较容易被AI克隆的，哪些是AI难以逾越的。

先听听看，你认为哪支是真人，哪支是AI？两支均为真人或AI？

先来看看“以假乱真”的音频1。上面这支采采的音频，有高达55.8%的用户认为它是真人原声，而不是合成的。有一些投票用户认为，该音频“有吐气之感”，确信它是真人，而不是合成的。

再来看看“真人”的音频2。满超老师的这支音频，目前对AI而言，依然是不可逾越的高峰。由于满超老师的演绎水平很高，可能导致大部分用户认为AI目前做不到这个水平，所以有75%的用户投票“真人”。满超老师已经入驻魔音工坊，他和杨婧老师的《斗罗大陆》有声书，堪称有声小说的标高，有兴趣的朋友可以在“云听”收听两位老师的精彩演绎。

再来听听满超老师激情风格的样音，看看真人可以做到多“真”，张力多强：

当然，主播的演绎越好，风格越多变，对AI来说越是无法逾越的高峰。不过技术在持续进步，路漫漫其修远兮，魔音工坊团队也会持续勇攀高峰，争取开发出更好的AI模型以飨用户。

【声明】内容源于网络

AI赋能

AI生成

魔音工坊

魔音工坊配音神器，让配音更简单。

内容 1001

粉丝 1

魔音工坊魔音工坊配音神器，让配音更简单。

总阅读123.8k

粉丝1

内容1.0k