Qwen3-TTS 升级，多音色、多语种和多方言；KaniTTS：开源实时语音小模型，消费级 GPU 运行丨日报



Qwen3-TTS 升级，多音色、多语种和多方言；KaniTTS：开源实时语音小模型，消费级 GPU 运行丨日报

RTE开发者社区

2025-12-08

导读：本期关键词：商业级产品、一脚踹翻、AI 市场

开发者朋友们大家好：

这里是「RTE 开发者日报」，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

本期编辑：@瓒an、@鲍勃

有话题的技术

1、Qwen3-TTS 全面升级，49 种音色 + 10 种语言 + 9 种方言

中文 sample

英文 sample

日语 sample

四川方案 sample

Qwen3-TTS 是支持多音色、多语种和多方言的旗舰语音合成模型，致力于实现稳定、自然和高效的语音生成，目前可通过 Qwen API 访问。

主要改进：

更加丰富的音色支持：Qwen3-TTS 提供超过 49 种高品质音色，涵盖不同性别、年龄、地域特征与角色设定，满足多样化的场景需求。撒娇搞怪-茉兔，陪伴感满满的青梅竹马-小野杏，傲娇率性的女汉子-十三，严厉老师-墨讲师，智慧老者-沧明子，萝莉萌妹-萌小姬等众多角色等你探索。
多语种多方言能力持续增强：Qwen3-TTS 支持中文、英文、德语、意大利语、葡萄牙语、西班牙语、日语、韩语、法语、俄语等 10 大主流语言，在 MiniMax TTS multilingual test set 上，平均词错误率（WER）优于 MiniMax、ElevenLabs 及 GPT-4o-Audio-Preview。支持更多音色的方言生成，包括普通话、闽南语、吴语、粤语、四川话、北京话、南京话、天津话和陕西话，真实还原地方口音特色与语言神韵。
韵律/语速更加自然，更拟人化：相比于上一个版本，Qwen3-TTS 自适应根据文本调节语速和韵律的能力大幅提高，拟人化程度逼近真人。

（@Qwen Team）

2、NineNineSix 开源 KaniTTS：实时语音生成模型，性能比肩商业级产品

吉尔吉斯斯坦 AI 初创公司 NineNineSix 发布了开源的文本转语音（TTS）模型 KaniTTS。该模型在消费级 GPU 上实现了接近实时的语音生成，性能可与 ElevenLabs、OpenAI 等商业模型媲美，并采用 Apache 2.0 许可证完全免费提供。

实时性与性能： 在消费级 NVIDIA RTX 5080 GPU 上，KaniTTS 可以在 1 秒内生成 15 秒的自然语音，实现真正的实时性能，无需企业级硬件。
高表现力语音： KaniTTS 不仅能朗读文本，还能捕捉语音的意义、情感、节奏和细微差别，生成听起来自然、生动的语音。
轻量化架构： 结合了高效的基于 Token 的生成机制和轻量级神经网络声码器（neural vocoder），实现了低延迟和高保真度。
多语言支持： 当前支持英语、德语、韩语、阿拉伯语、中文和西班牙语，并计划增加吉尔吉斯语和日语。
开源与可访问性： 采用 Apache 2.0 许可证，允许用户自由研究、改编和部署，降低了先进语音 AI 的门槛。
参数量： 370M 参数。
开发与支持： 由 NineNineSix 公司开发，并在吉尔吉斯共和国高科技园区（HTP）生态系统内完成。

KaniTTS 模型已开源，可通过 Hugging Face 下载（已下载超过 15,000 次）。未来计划支持语音克隆功能。

Hugging Face:

https://huggingface.co/nineninesix

(@TechIntelPro / NineNineSix)

3、被 Gemini3 整怕了，曝 GPT-5.2 本周发布

据 The Verge 援引知情人士消息称，OpenAI 计划最早于本周初发布 GPT-5.2 模型，这一时间表较原定的 12 月下旬计划大幅提前。目前公司已将发布日期暂定为 12 月 9 日。

消息人士称， 此次提前发布直接源于竞争对手施加的压力。

Google 上月推出的 Gemini 3 模型在多项评测排行榜中领先，其表现甚至令 OpenAI CEO Sam Altman 感到震惊。知情人士表示，GPT-5.2 的性能提升将有望缩小 Google 此前建立的领先优势。

最近，X 博主 @iruletheworldmo 也分享了关于这款基础模型的基准测试成绩。不过，真实性尚未得到确认，请谨慎看待。

除了新模型发布，OpenAI 正在调整产品战略方向。未来数月内，ChatGPT 的改进重点将从增加新奇功能转向提升 ChatGPT 的响应速度、系统稳定性和个性化定制能力。

( @APPSO)

有亮点的产品

1、Meta XR 产品线大地震：全面拥抱 AI 可穿戴设备，高端 MR 头显延至 2027，Quest 4 聚焦游戏定位

Meta 近日泄露的内部备忘录显示，公司正在大幅调整其扩展现实产品路线图。原计划于 2026 年下半年发布的超轻薄混合现实头显 Phoenix/Puffin 将推迟至 2027 年上半年上市，而新一代专注于沉浸式游戏的 Quest 4 已确认正在开发中。

备忘录揭示了 Meta 在 XR 和可穿戴设备战略上的重大转变：放缓高端 MR 头显进度以「打磨细节」，同时转向更务实、更注重盈利的产品策略。

Meta 战略重心从「元宇宙优先」转向「AI 硬件优先」，计划对 Reality Labs 部门削减高达 30%预算，2026 年发布限量版可穿戴设备 Malibu 2。

收购 AI 硬件初创公司 Limitless 并从苹果挖来人机界面设计副总裁艾伦·戴伊等高管，加速 AI 可穿戴设备布局。

（@三次方 AIRX、@NathieVR@X）

2、ElevenLabs 推出「对话式读书」功能，用户可与书籍进行实时语音互动

ElevenLabs 于 12 月 6 日通过其官方社交账号发布全新互动阅读功能，旨在为用户打造个性化的「语音读书俱乐部」。该功能依托其 ElevenLabs Agents 平台，允许读者与书籍进行语音对话，实现更深度的阅读体验。

用户可通过配套应用程序「ElevenReader」向书籍直接提问，内容涵盖人物、情节、背景、主题等任意方向。系统提供的虚拟叙述者能够记忆对话上下文，并严格依据书籍原文进行回应，帮助读者在阅读过程中随时探索故事细节。

官方示例界面展示了以《傲慢与偏见》为对象的对话场景，界面提示「向我提问…《傲慢与偏见》」，背景采用渐变粉紫色设计，突出沉浸式互动氛围，并强调让读者「走进最喜欢的故事」。

https://elevenreader.io/

（@ElevenLabs@X）

3、众擎老板亲自挑战机器人，被一脚踹翻

近期，众擎机器人官方发布视频称，团队十分好奇机器人 T800 一脚踹到人身上到底有啥感觉。对此「用老板做了个实验测试下」。

从众擎团队公布的视频来看，T800 对准众擎机器人 CEO 赵同阳伸腿后，赵同阳整个人向后「飞」出去。

挨踹后的赵同阳直呼：「太暴力了、太残暴了。如果不戴护具没人能撑得住，绝对会骨折。」有网友表示：「你们员工太狠了，让老板亲自上阵。多少带了点私人恩怨。」

据了解，众擎 T800 身高 1.73 米，自重 75 千克，系众擎发布的首款「打工机器人」，售价为 18 万元起。

( @APPSO)

有态度的观点

1、AI 教父 Hinton 预言：Google Gemini 将超越 OpenAI GPT，引领 AI 市场

「AI 教父」 Geoffrey Hinton 近期表示，Google 凭借 Gemini 3、自研芯片、强大的数据资源和研究团队，正在超越 OpenAI。Hinton 认为 Google 凭借其综合优势，必将赢得这场 AI 领域的双雄之争，并且认为 Google「早该赢了」。

Gemini 3 Pro 的多模态能力： Google 发布了 Gemini 3 Pro，该模型在视觉理解方面取得突破，能从「看见」进化到「理解」，在文档、空间、屏幕和视频理解方面表现卓越。

文档理解： 具备高精度 OCR、复杂结构解析（如手写表格、数学公式）及「反渲染」能力，可将文档还原为结构化代码。在 CharXiv 基准测试中超越人类基线。
空间理解： 能指向图像中的具体位置，并进行 2D 图像到「世界模型」的关键一步；开放词汇指代能力使其能理解物体及其意图，应用于机器人和 AR/XR 场景。
屏幕理解： 显著提升了对桌面和移动设备界面的理解能力，支持计算机使用型智能体执行重复任务、QA 测试、UX 分析等。
视频理解： 在高帧率（高于 1 FPS）和复杂因果关系推理方面取得进展，能实现长视频的总结和应用生成。

Google 的综合优势： Hinton 指出 Google 在模型（Gemini 3、Nano Banana Pro）、自研芯片（TPU）、数据量、研究团队以及庞大的数据中心方面拥有显著优势。
市场竞争格局： Gemini 3 的发布带动了 Google 市值的增长。市场情报显示，Gemini 在下载增速、月活增速和用户使用时长方面正全面超越 ChatGPT，尽管 ChatGPT 仍拥有庞大的用户基数。
Google 的策略转变： Hinton 提及 Google 曾因对品牌声誉的担忧而变得谨慎，例如早期聊天机器人的发布顾虑，以及近期 AI 图像生成器出现的问题。但 Gemini 3 的发布标志着其在多模态理解上迈出了关键一步。
OpenAI 的挑战： ChatGPT 的增长势头趋缓，面临 Gemini、Claude 等竞品的压力。OpenAI CEO Sam Altman 已发出「红色警报」，要求团队聚焦提升 ChatGPT 的核心体验，以巩固用户飞轮优势。