一直在找能生成自然对话的AI语音工具,试过不少TTS系统,要么只能单人发音,要么音质僵硬不自然,更别说生成播客那种多人对话了。最近微软开源了VibeVoice这个项目,能生成最长90分钟的多人对话音频,支持4个不同说话人,还有实时流式TTS模式,音质表现力都达到了前沿水平。
VibeVoice是什么
它是微软开源的前沿语音AI框架,专为生成富有表现力的长篇多人对话音频而设计,比如播客节目。采用创新的连续语音分词器和next-token扩散框架,结合大语言模型理解上下文和对话流程,突破了传统TTS系统在扩展性、说话人一致性和自然对话方面的限制。支持中英文,可以生成自然的多人对话、跨语言合成、甚至自发性唱歌。
开源成就
-
• Star数 已经收获17.3K Star -
• 主开发语言 主要用Python开发 -
• 开源协议 采用MIT协议,完全开源 -
• 官方背书 微软官方开源项目,基于Qwen2.5模型
核心功能
-
• 超长对话生成,可以生成最长90分钟的连续对话音频,突破了传统TTS系统1-2分钟的长度限制,特别适合制作播客节目 -
• 多说话人支持,支持最多4个不同说话人的自然对话,每个说话人都有独特的音色和说话风格,说话人一致性表现优秀 -
• 实时流式TTS,VibeVoice-Realtime-0.5B模型支持实时文本输入和流式语音生成,首个音频块延迟仅约300ms,可用于实时对话应用
# 实时TTS特性
- 首音延迟: ~300ms
- 支持流式文本输入
- 适合单说话人实时生成
- 可通过WebSocket部署Demo
-
• 超低帧率分词器,核心创新使用连续语音分词器(声学和语义),工作在超低7.5Hz帧率,既保持音频保真度又大幅提升长序列处理效率 -
• Next-Token扩散框架,利用LLM理解文本上下文和对话流程,扩散头生成高保真声学细节,实现自然的对话转换和情感表达 -
• 多语言实验支持,新增9种语言的实验性说话人(德语、法语、意大利语、日语、韩语、荷兰语、波兰语、葡萄牙语、西班牙语),欢迎测试反馈
# 支持的语言
核心支持: 中文、英文
实验支持: DE, FR, IT, JP, KR, NL, PL, PT, ES
-
• 跨语言合成,可以实现跨语言语音合成,比如英文转中文或中文转英文,保持说话人特征 -
• 自发性唱歌,模型甚至能生成自发性的唱歌内容,展现出色的表现力和韵律控制能力 -
• 自然对话转换,支持多人对话中的自然停顿、语气转换、情感表达,让对话听起来更真实
安装指南
-
• 在线体验最快,可以直接在Colab上体验实时TTS模型
https://colab.research.google.com/github/microsoft/VibeVoice/blob/main/demo/vibevoice_realtime_colab.ipynb
-
• 克隆仓库安装,下载代码后可以本地部署
git clone https://github.com/microsoft/VibeVoice.git
cd VibeVoice
-
• 模型下载,模型托管在Hugging Face上
https://huggingface.co/collections/microsoft/vibevoice-68a2ef24a875c44be47b034f
-
• 实时WebSocket Demo,可以启动实时WebSocket演示服务
# 参考官方文档启动实时Demo
# 支持流式文本输入和实时语音生成
-
• Python包安装,支持通过pip安装
pip install -e .
-
• 语音提示格式,为了降低深度伪造风险并确保首音块低延迟,语音提示以嵌入格式提供,需要定制说话人可联系团队 -
• 依赖项要求,需要Python环境和相关深度学习框架,具体要求参见pyproject.toml
模型变体
|
|
|
|
|---|---|---|
| 长篇多说话人模型 |
|
|
| 实时流式TTS模型 |
|
|
技术创新
-
• 7.5Hz超低帧率:传统TTS通常使用50-100Hz帧率,VibeVoice创新性地降到7.5Hz,极大提升了长序列处理效率 -
• 声学和语义双分词器:分别处理声学细节和语义内容,保证音质的同时提升生成效率 -
• LLM驱动的上下文理解:基于Qwen2.5 1.5B模型,深度理解对话上下文和说话人交互 -
• 扩散头生成:使用扩散模型生成高保真音频细节,确保自然度和表现力
风险与限制
-
• 仅供研究使用:微软明确说明该模型仅用于研究和开发目的,不推荐在商业或实际应用中使用 -
• 深度伪造风险:高质量合成语音可能被滥用于伪装身份、欺诈或传播虚假信息,用户必须负责任地使用 -
• 语言限制:核心支持仅限英文和中文,其他语言可能产生意外输出 -
• 不支持非语音音频:模型专注于语音合成,不处理背景噪音、音乐或其他音效 -
• 不支持重叠语音:当前模型不能显式建模或生成对话中的重叠语音片段 -
• 继承基础模型偏差:可能继承Qwen2.5模型的任何偏见、错误或遗漏
应用场景
-
• 播客制作:自动生成多人对话播客,节省录制和后期成本 -
• 有声书制作:为小说等文学作品配上多个角色的声音 -
• 教育内容:制作对话式教学内容,提升学习体验 -
• 语音助手:使用实时TTS模型打造低延迟语音交互系统 -
• 视频配音:为视频内容快速生成多人对话配音 -
• 无障碍应用:为视障用户提供自然的文字转语音服务
开源地址 https://github.com/microsoft/VibeVoice
END
往期推荐

