

魔音工坊语音合成算法公示，让AI配音逐步媲美真人

魔音工坊

2023-04-07

555

导读：魔音工坊不断更迭自身语音合成技术，致力为用户带来最优质的配音体验。今天，我们想向大家公开魔音工坊的语音合成算法原理。

一直以来，魔音工坊不断更迭自身语音合成技术，致力为用户带来最优质的配音体验。MeetHiFiVoice 家族相信大家并不陌生，我们推出了首发的配音功能，让AI配音逐步「媲美真人」。今天，我们想向大家公开魔音工坊的语音合成算法原理。

语音合成（Text-To-Speech）技术是一种将文本转换为对应语音的技术。近年来，语音合成技术被广泛地应用于有声书，广播剧，短视频，个人配音等场景。随着深度学习的飞速发展，语音合成技术在近几年也得到了极大的进步，尤其是在音质、自然度、情感等方面。

相较我们2019年8月上线的MeetVoice旧版本，新技术不再需要分开训练声学模型和声码器，一个模型即可进行完全端到端的训练。模型架构虽然变得简单了，效果却变得更出众：简单的架构，成就不简单的音质。

语音合成算法基本原理

魔音工坊的语音合成算法的基本原理是输入文本，然后经过一系列处理过程后，最终生成音频。这些处理过程包括编码、注意力机制、解码和声码器操作。最终，用户可以通过调用 API 或使用标准的 SSML 语言输入，来获得生成的音频数据。

语音合成算法运行机制

魔音工坊的语音合成算法是一种基于深度学习模型的算法。当用户想要生成音频时，输入编辑好的文章，然后算法模块开始工作，生成音频后返回给客户端，用户可以下载保存。魔音工坊保护用户信息安全，如果用户输入的内容包含不良信息，算法会进行拦截或过滤处理。

总的来说，当使用TTS技术生成语音时，我们需要输入用户编辑好的文本和相应的模块信息（如停顿调节等）。这些信息会被送到魔音工坊端到端语音合成引擎中，最终生成语音。在这个过程中，生成的语音会带有魔音工坊的隐形水印。需要注意的是，TTS技术不会存储任何跟用户有关的信息，用户可以放心使用。

基于MeetHiFiVoice，魔音工坊已拥有 500+ 的发音人，1200+ 风格。我们的技术目标是让 MeetHiFiVoice 家族不断地更新迭代，时刻关注广大用户的需求，以便让创作者在魔音工坊平台上能够自主控制韵律、情感、语调、方言、语种等，更便捷地创作出高质量、高清晰度的音频内容。

除此之外，MeetHiFiVoice的语音技术还能更便捷地应用于声音克隆，由于新模型对录音环境依赖更低，用户只需要在家里稍微安静的环境中，用专业设备（甚至是手机）录制300-500句话，经过工程师三天左右的训练处理，就可以拥有一个媲美真人的TTS模型。因不便找录音棚，有录音棚恐惧症的朋友，即可在家实现声音克隆。

未来，我们将致力于保持算法透明化和AI技术合规化，并积极倾听广泛的意见和建议，以不断完善和迭代我们的算法技术。我们希望能够推动整个行业向着更高质量的方向发展，为用户提供更好的服务和体验。同时，我们也将持续关注相关的法律法规和伦理标准，遵守法律规定，保障用户权益。

最后我们来欣赏一段视频（大部分为魔音工坊用户制作的视频片段），看看MeetHiFiVoice加持下的魔音工坊发音人，做出来的作品配音效果是否足够以假乱真？

【声明】内容源于网络

魔音工坊

魔音工坊配音神器，让配音更简单。

内容 1001

粉丝 1

魔音工坊魔音工坊配音神器，让配音更简单。

总阅读119.3k

粉丝1

内容1.0k