

OpenAI 的新“语音引擎”只需 15 秒即可克隆语音

七元宇宙

2024-03-31

导读：该工具仍处于封闭测试阶段，可以让人们发出自己的声音，但该公司承认存在滥用的可能性。

OpenAI 是占主导地位的生成式人工智能工具 ChatGPT 背后的人工智能公司，它推出了一种新的语音克隆技术，称为“语音引擎”。该音频模型可以基于相对较小的原始音频样本来复制人的声音、语调和其他明显的人类语音模式。

“值得注意的是，一个带有单个15秒样本的小型模型可以创建情感和逼真的声音，”该公司在周五的博客文章中表示。

相比之下，人工智能语音平台ElevenLabs具有即时语音克隆工具，需要至少一分钟的样本。为了获得最佳效果，其专业的服务水平需要近 10 分钟的连续语音。

该公司展示了这项技术能够做什么的不同例子。在一个例子中，一名因血管性脑肿瘤而失去大部分说话能力的年轻患者的声音是用她为学校项目制作的旧录音克隆的。根据 OpenAI 的说法，这就是她今天的声音。

OpenAI 与布朗大学医学院附属的非营利组织 Lifespan 合作，并开发了一款名为 Livox 的工具，这是一款专为残疾人打造的“替代通信应用程序”。该团队能够处理该女子为学校演讲制作的录音：

然后，Open AI 语音引擎能够提供即时文本转语音功能，使患者能够有效地用自己的声音说话。

OpenAI 还展示了 HeyGen 如何使用其技术生成以特定语言上传的语音的自然语音翻译。

该公司表示，语音引擎于 2022 年底首次开发，并已用于为 OpenAI 的文本转语音 API 中可用的预设语音以及 ChatGPT 的语音和大声朗读功能提供支持。随着最新的进展，该公司表示在更广泛的版本发布之前保持谨慎。

“我们希望就负责任地部署合成声音以及社会如何适应这些新功能展开对话，”OpenAI写道，并承认了广受谴责的“深度伪造”做法。名人、政府官员和越来越多的普通公民的声音被冒充用于政治运动、虚假广告和彻头彻尾的犯罪活动等邪恶目的。美国总统乔·拜登（Joe Biden）一直在推动采取更多保护措施，防止恶意使用人工智能语音冒充。

事实上，Meta 去年夏天透露，其 AI 语音工具之所以受到阻碍，是因为“滥用的潜在风险”。

OpenAI解释说：“根据我们的人工智能安全方法和我们的自愿承诺，我们选择预览但目前尚未广泛发布这项技术。

甚至在公开发布之前，OpenAI 就对语音引擎施加了限制——包括它不会效仿的知名人士名单。

OpenAI写道：“我们认为，合成语音技术的任何广泛部署都应该伴随着语音认证体验，以验证原始说话者是否故意将他们的声音添加到服务中，以及一个禁止语音列表，以检测和防止创建与知名人物过于相似的声音。

今天测试语音引擎的合作伙伴已经同意 OpenAI 的使用政策，该政策禁止在未经同意的情况下冒充其他个人或组织。此外，该公司要求原始说话者明确和知情同意，并且他们不允许开发人员为个人用户构建克隆自己声音的方法。

“基于这些对话和这些小规模测试的结果，我们将就是否以及如何大规模部署这项技术做出更明智的决定，”博客文章写道。

除了语音引擎之外，Open AI 还同时开展多个项目。首席执行官 Sam Altman 透露，该公司正在努力在今年发布 GPT-5。该公司还展示了其生成视频工具Sora。该公司声称 Sora 将成为市场上最先进的视频生成器，超过 Pika、Stable Video Diffusion 和 Runway ML 等型号。