

模力方舟上线 GLM-TTS：零样本音色复刻，高保真情感语音一键生成

OSC开源社区

2025-12-18

导读：由智谱AI开源，具备「参考音频 + 文本」的零样本语音复刻能力

语音合成，正成为多模态内容创作的核心工具。而要实现真正实用、自然的 TTS（文本转语音），不仅要声音还原度高、语调情感丰富，还要接入简单、响应快速、支持个性化语音复刻。GLM-TTS正是在这类需求下诞生的一款高质量模型。

该模型由智谱 AI 开源，具备「参考音频 + 文本」的零样本语音复刻能力，能够在无需训练的前提下保持音色一致性，并结合强化学习实现对语调和情绪的可控生成。

现在，GLM-TTS 已正式上线模力方舟 Serverless API，用户可直接体验零样本播报、一键语音生成的能力。

立即体验：

https://moark.com/serverless-api?model=GLM-TTS

什么是 GLM-TTS？

GLM-TTS 是一个两阶段架构的 TTS 模型：

该模型设计中引入了多奖励强化学习、可控发音机制和轻量定制策略，用不到 10 秒的提示音频，即可复刻任意说话人的语音风格，生成自然、清晰、富有情感的语音内容。

上传一段短音频（3–10 秒），即可在无微调的前提下生成相同音色的语音，适合快速复刻主播、讲解员、客户声音等场景。

生成语音清晰、断句自然，语义对齐准确，可用于内容配音、有声读物、产品播报等应用。

通过引入多维奖励函数（准确率 CER、相似度 SIM、情绪表达、笑声质量），并采用 GRPO 策略优化，使模型在情绪语调和拟人感表现上超越传统系统。

可对多音字、冷僻词进行发音干预与定向替换，确保在教育评测、标准朗读等场景下的发音准确性。

支持交互式实时语音生成。仅需提供文本与参考音频 URL，即可通过 API 实现全流程合成，便于快速部署落地。

模型名称	字符错误率 CER ↓	相似度 SIM ↑	是否开源
MiniMax	0.83	78.3	❌
Seed-TTS	1.12	79.6	❌
GLM-TTS_RL	0.89	76.4	✅
IndexTTS2	1.03	76.5	✅
VoxCPM	0.93	77.2	✅

在 CER 与 SIM 指标上，GLM-TTS_RL 接近或超越现有多款商用模型表现，在开源阵营中位列第一梯队。

GLM-TTS模型现已上线模力方舟 Serverless API，无需部署环境、无需显卡资源，即开即用，访问链接即刻在线体验：

https://moark.com/serverless-api?model=GLM-TTS

【声明】内容源于网络

OSC开源社区

开源中国，只关注开源圈、技术圈的硬核内容，与嬉笑怒骂。

内容 11860

粉丝 0

OSC开源社区开源中国，只关注开源圈、技术圈的硬核内容，与嬉笑怒骂。

总阅读508

粉丝0

内容11.9k