大数跨境
0
0

17.3K Star!微软开源VibeVoice,AI语音合成新突破,支持90分钟多人对话和实时流式TTS

17.3K Star!微软开源VibeVoice,AI语音合成新突破,支持90分钟多人对话和实时流式TTS dotNET跨平台
2025-12-18
1
导读:一直在找能生成自然对话的AI语音工具,试过不少TTS系统,要么只能单人发音,要么音质僵硬不自然,更别说生成

一直在找能生成自然对话的AI语音工具,试过不少TTS系统,要么只能单人发音,要么音质僵硬不自然,更别说生成播客那种多人对话了。最近微软开源了VibeVoice这个项目,能生成最长90分钟的多人对话音频,支持4个不同说话人,还有实时流式TTS模式,音质表现力都达到了前沿水平。



VibeVoice是什么

它是微软开源的前沿语音AI框架,专为生成富有表现力的长篇多人对话音频而设计,比如播客节目。采用创新的连续语音分词器和next-token扩散框架,结合大语言模型理解上下文和对话流程,突破了传统TTS系统在扩展性、说话人一致性和自然对话方面的限制。支持中英文,可以生成自然的多人对话、跨语言合成、甚至自发性唱歌。

开源成就

  • • Star数 已经收获17.3K Star
  • • 主开发语言 主要用Python开发
  • • 开源协议 采用MIT协议,完全开源
  • • 官方背书 微软官方开源项目,基于Qwen2.5模型

核心功能


  • • 超长对话生成,可以生成最长90分钟的连续对话音频,突破了传统TTS系统1-2分钟的长度限制,特别适合制作播客节目
  • • 多说话人支持,支持最多4个不同说话人的自然对话,每个说话人都有独特的音色和说话风格,说话人一致性表现优秀
  • • 实时流式TTS,VibeVoice-Realtime-0.5B模型支持实时文本输入和流式语音生成,首个音频块延迟仅约300ms,可用于实时对话应用
# 实时TTS特性
- 首音延迟: ~300ms
- 支持流式文本输入
- 适合单说话人实时生成
- 可通过WebSocket部署Demo
  • • 超低帧率分词器,核心创新使用连续语音分词器(声学和语义),工作在超低7.5Hz帧率,既保持音频保真度又大幅提升长序列处理效率
  • • Next-Token扩散框架,利用LLM理解文本上下文和对话流程,扩散头生成高保真声学细节,实现自然的对话转换和情感表达
  • • 多语言实验支持,新增9种语言的实验性说话人(德语、法语、意大利语、日语、韩语、荷兰语、波兰语、葡萄牙语、西班牙语),欢迎测试反馈
# 支持的语言
核心支持: 中文、英文
实验支持: DE, FR, IT, JP, KR, NL, PL, PT, ES
  • • 跨语言合成,可以实现跨语言语音合成,比如英文转中文或中文转英文,保持说话人特征
  • • 自发性唱歌,模型甚至能生成自发性的唱歌内容,展现出色的表现力和韵律控制能力
  • • 自然对话转换,支持多人对话中的自然停顿、语气转换、情感表达,让对话听起来更真实

安装指南

  • • 在线体验最快,可以直接在Colab上体验实时TTS模型
https://colab.research.google.com/github/microsoft/VibeVoice/blob/main/demo/vibevoice_realtime_colab.ipynb
  • • 克隆仓库安装,下载代码后可以本地部署
git clone https://github.com/microsoft/VibeVoice.git
cd
 VibeVoice
  • • 模型下载,模型托管在Hugging Face上
https://huggingface.co/collections/microsoft/vibevoice-68a2ef24a875c44be47b034f
  • • 实时WebSocket Demo,可以启动实时WebSocket演示服务
# 参考官方文档启动实时Demo
# 支持流式文本输入和实时语音生成
  • • Python包安装,支持通过pip安装
pip install -e .
  • • 语音提示格式,为了降低深度伪造风险并确保首音块低延迟,语音提示以嵌入格式提供,需要定制说话人可联系团队
  • • 依赖项要求,需要Python环境和相关深度学习框架,具体要求参见pyproject.toml

模型变体

模型类型
特点
适用场景
长篇多说话人模型
支持最多4个说话人,90分钟对话
播客制作、有声书、多人对话内容
实时流式TTS模型
300ms首音延迟,流式输入
实时对话、语音助手、直播配音

技术创新

  • • 7.5Hz超低帧率:传统TTS通常使用50-100Hz帧率,VibeVoice创新性地降到7.5Hz,极大提升了长序列处理效率
  • • 声学和语义双分词器:分别处理声学细节和语义内容,保证音质的同时提升生成效率
  • • LLM驱动的上下文理解:基于Qwen2.5 1.5B模型,深度理解对话上下文和说话人交互
  • • 扩散头生成:使用扩散模型生成高保真音频细节,确保自然度和表现力

风险与限制

  • • 仅供研究使用:微软明确说明该模型仅用于研究和开发目的,不推荐在商业或实际应用中使用
  • • 深度伪造风险:高质量合成语音可能被滥用于伪装身份、欺诈或传播虚假信息,用户必须负责任地使用
  • • 语言限制:核心支持仅限英文和中文,其他语言可能产生意外输出
  • • 不支持非语音音频:模型专注于语音合成,不处理背景噪音、音乐或其他音效
  • • 不支持重叠语音:当前模型不能显式建模或生成对话中的重叠语音片段
  • • 继承基础模型偏差:可能继承Qwen2.5模型的任何偏见、错误或遗漏

应用场景

  • • 播客制作:自动生成多人对话播客,节省录制和后期成本
  • • 有声书制作:为小说等文学作品配上多个角色的声音
  • • 教育内容:制作对话式教学内容,提升学习体验
  • • 语音助手:使用实时TTS模型打造低延迟语音交互系统
  • • 视频配音:为视频内容快速生成多人对话配音
  • • 无障碍应用:为视障用户提供自然的文字转语音服务

开源地址 https://github.com/microsoft/VibeVoice


 
 
 
   
   
   
END


往期推荐




【声明】内容源于网络
0
0
dotNET跨平台
专注于.NET Core的技术传播。在这里你可以谈微软.NET,Mono的跨平台开发技术。在这里可以让你的.NET项目有新的思路,不局限于微软的技术栈,横跨Windows,
内容 914
粉丝 0
dotNET跨平台 专注于.NET Core的技术传播。在这里你可以谈微软.NET,Mono的跨平台开发技术。在这里可以让你的.NET项目有新的思路,不局限于微软的技术栈,横跨Windows,
总阅读15.0k
粉丝0
内容914