微软开源前沿语音 VibeVoice：单次处理 90 分钟多说话人对话- 大数跨境

AI智前沿

2026-03-30

微软开源VibeVoice语音AI：支持90分钟长对话与多角色交互

微软近期开源的VibeVoice语音AI模型GitHub获28.1k stars。该技术突破性地支持单次生成90分钟连贯对话，并实现最多4人交替发言，自然度媲美真人交互。

相较于传统播客制作需专业配音与后期团队的高门槛，VibeVoice使非专业用户通过文本脚本即可生成播客级音频，显著降低内容创作成本。

传统TTS工具受限于短文本处理和单人声线，长音频易出现单调断句问题。VibeVoice专攻长形式对话式音频，具备四大优势：

GitHub地址见https://github.com/microsoft/VibeVoice，项目页面提供可试听Demo。

该技术为内容创作者开辟新路径：

开源此类高复杂度技术解决行业痛点，此前长对话与多角色功能多被商业闭源产品垄断。微软将前沿能力开放促使社区快速响应，28K stars印证市场需求强度。

当前版本需本地部署GPU资源，官方提示需关注声音克隆的版权合规性。随着社区生态扩展，未来或通过UI工具集成催生更多应用场景。

【声明】内容源于网络

AI智前沿

1234

内容 245

粉丝 0

AI智前沿 1234

总阅读3.7k

粉丝0

内容245