大数跨境
0
0

模力方舟上线 GLM-TTS:零样本音色复刻,高保真情感语音一键生成

模力方舟上线 GLM-TTS:零样本音色复刻,高保真情感语音一键生成 OSC开源社区
2025-12-18
2
导读:由智谱AI开源,具备「参考音频 + 文本」的零样本语音复刻能力

语音合成,正成为多模态内容创作的核心工具。而要实现真正实用、自然的 TTS(文本转语音),不仅要声音还原度高、语调情感丰富,还要接入简单、响应快速、支持个性化语音复刻。GLM-TTS正是在这类需求下诞生的一款高质量模型。

该模型由智谱 AI 开源,具备「参考音频 + 文本」的零样本语音复刻能力,能够在无需训练的前提下保持音色一致性,并结合强化学习实现对语调和情绪的可控生成。


现在,GLM-TTS 已正式上线模力方舟 Serverless API,用户可直接体验零样本播报、一键语音生成的能力。

立即体验:

https://moark.com/serverless-api?model=GLM-TTS

什么是 GLM-TTS?

GLM-TTS 是一个两阶段架构的 TTS 模型:

  • 第一阶段:使用 LLM(基于 LLaMA 架构)将输入文本转换为语音 token 序列;
  • 第二阶段:使用 Flow 模型生成高质量梅尔频谱,再由声码器输出最终音频。

该模型设计中引入了多奖励强化学习、可控发音机制和轻量定制策略,用不到 10 秒的提示音频,即可复刻任意说话人的语音风格,生成自然、清晰、富有情感的语音内容。

核心能力亮点

零样本语音克隆,复刻说话人音色

上传一段短音频(3–10 秒),即可在无微调的前提下生成相同音色的语音,适合快速复刻主播、讲解员、客户声音等场景。

高质量自然合成,适合正式播报

生成语音清晰、断句自然,语义对齐准确,可用于内容配音、有声读物、产品播报等应用。

强化学习增强情感控制

通过引入多维奖励函数(准确率 CER、相似度 SIM、情绪表达、笑声质量),并采用 GRPO 策略优化,使模型在 情绪语调和拟人感表现上超越传统系统。

精细化音素控制机制 Phoneme-in

可对多音字、冷僻词进行发音干预与定向替换,确保在教育评测、标准朗读等场景下的发音准确性。

流式推理与轻量集成

支持交互式实时语音生成。仅需提供文本与参考音频 URL,即可通过 API 实现全流程合成,便于快速部署落地。

模型效果实测(中文测试集)

模型名称
字符错误率 CER ↓
相似度 SIM ↑
是否开源
MiniMax
0.83
78.3
Seed-TTS
1.12
79.6
GLM-TTS_RL 0.89
76.4
IndexTTS2
1.03
76.5
VoxCPM
0.93
77.2

在 CER 与 SIM 指标上,GLM-TTS_RL 接近或超越现有多款商用模型表现,在开源阵营中位列第一梯队。

GLM-TTS模型现已上线模力方舟 Serverless API,无需部署环境、无需显卡资源,即开即用,访问链接即刻在线体验:

https://moark.com/serverless-api?model=GLM-TTS

【声明】内容源于网络
0
0
OSC开源社区
开源中国,只关注开源圈、技术圈的硬核内容,与嬉笑怒骂。
内容 11860
粉丝 0
OSC开源社区 开源中国,只关注开源圈、技术圈的硬核内容,与嬉笑怒骂。
总阅读508
粉丝0
内容11.9k