01
有话题的技术
1、Qwen3-TTS 全面升级,49 种音色 + 10 种语言 + 9 种方言
中文 sample
英文 sample
日语 sample
四川方案 sample
Qwen3-TTS 是支持多音色、多语种和多方言的旗舰语音合成模型,致力于实现稳定、自然和高效的语音生成,目前可通过 Qwen API 访问。
主要改进:
更加丰富的音色支持:Qwen3-TTS 提供超过 49 种高品质音色,涵盖不同性别、年龄、地域特征与角色设定,满足多样化的场景需求。撒娇搞怪-茉兔,陪伴感满满的青梅竹马-小野杏,傲娇率性的女汉子-十三 ,严厉老师-墨讲师 ,智慧老者-沧明子,萝莉萌妹-萌小姬等众多角色等你探索。
多语种多方言能力持续增强:Qwen3-TTS 支持中文、英文、德语、意大利语、葡萄牙语、西班牙语、日语、韩语、法语、俄语等 10 大主流语言,在 MiniMax TTS multilingual test set 上,平均词错误率(WER)优于 MiniMax、ElevenLabs 及 GPT-4o-Audio-Preview。支持更多音色的方言生成,包括普通话、闽南语、吴语、粤语、四川话、北京话、南京话、天津话和陕西话,真实还原地方口音特色与语言神韵。
韵律/语速更加自然,更拟人化:相比于上一个版本,Qwen3-TTS 自适应根据文本调节语速和韵律的能力大幅提高,拟人化程度逼近真人。
(@Qwen Team)
2、NineNineSix 开源 KaniTTS:实时语音生成模型,性能比肩商业级产品
吉尔吉斯斯坦 AI 初创公司 NineNineSix 发布了开源的文本转语音(TTS)模型 KaniTTS。该模型在消费级 GPU 上实现了接近实时的语音生成,性能可与 ElevenLabs、OpenAI 等商业模型媲美,并采用 Apache 2.0 许可证完全免费提供。
实时性与性能: 在消费级 NVIDIA RTX 5080 GPU 上,KaniTTS 可以在 1 秒内生成 15 秒的自然语音,实现真正的实时性能,无需企业级硬件。
高表现力语音: KaniTTS 不仅能朗读文本,还能捕捉语音的意义、情感、节奏和细微差别,生成听起来自然、生动的语音。
轻量化架构: 结合了高效的基于 Token 的生成机制和轻量级神经网络声码器(neural vocoder),实现了低延迟和高保真度。
多语言支持: 当前支持英语、德语、韩语、阿拉伯语、中文和西班牙语,并计划增加吉尔吉斯语和日语。
开源与可访问性: 采用 Apache 2.0 许可证,允许用户自由研究、改编和部署,降低了先进语音 AI 的门槛。
参数量: 370M 参数。
开发与支持: 由 NineNineSix 公司开发,并在吉尔吉斯共和国高科技园区(HTP)生态系统内完成。
KaniTTS 模型已开源,可通过 Hugging Face 下载(已下载超过 15,000 次)。未来计划支持语音克隆功能。
Hugging Face:
https://huggingface.co/nineninesix
(@TechIntelPro / NineNineSix)
3、被 Gemini3 整怕了,曝 GPT-5.2 本周发布
据 The Verge 援引知情人士消息称,OpenAI 计划最早于本周初发布 GPT-5.2 模型, 这一时间表较原定的 12 月下旬计划大幅提前。目前公司已将发布日期暂定为 12 月 9 日。
消息人士称, 此次提前发布直接源于竞争对手施加的压力。
Google 上月推出的 Gemini 3 模型在多项评测排行榜中领先, 其表现甚至令 OpenAI CEO Sam Altman 感到震惊。知情人士表示,GPT-5.2 的性能提升将有望缩小 Google 此前建立的领先优势。
最近,X 博主 @iruletheworldmo 也分享了关于这款基础模型的基准测试成绩。不过,真实性尚未得到确认,请谨慎看待。
除了新模型发布,OpenAI 正在调整产品战略方向。未来数月内,ChatGPT 的改进重点将从增加新奇功能转向提升 ChatGPT 的响应速度、系统稳定性和个性化定制能力。
( @APPSO)
02
有亮点的产品
1、Meta XR 产品线大地震:全面拥抱 AI 可穿戴设备,高端 MR 头显延至 2027,Quest 4 聚焦游戏定位
Meta 近日泄露的内部备忘录显示,公司正在大幅调整其扩展现实产品路线图。原计划于 2026 年下半年发布的超轻薄混合现实头显 Phoenix/Puffin 将推迟至 2027 年上半年上市,而新一代专注于沉浸式游戏的 Quest 4 已确认正在开发中。
备忘录揭示了 Meta 在 XR 和可穿戴设备战略上的重大转变:放缓高端 MR 头显进度以「打磨细节」,同时转向更务实、更注重盈利的产品策略。
Meta 战略重心从「元宇宙优先」转向「AI 硬件优先」,计划对 Reality Labs 部门削减高达 30%预算,2026 年发布限量版可穿戴设备 Malibu 2。
收购 AI 硬件初创公司 Limitless 并从苹果挖来人机界面设计副总裁艾伦·戴伊等高管,加速 AI 可穿戴设备布局。
(@三次方 AIRX、@NathieVR@X)
2、ElevenLabs 推出「对话式读书」功能,用户可与书籍进行实时语音互动
ElevenLabs 于 12 月 6 日通过其官方社交账号发布全新互动阅读功能,旨在为用户打造个性化的「语音读书俱乐部」。该功能依托其 ElevenLabs Agents 平台,允许读者与书籍进行语音对话,实现更深度的阅读体验。
用户可通过配套应用程序「ElevenReader」向书籍直接提问,内容涵盖人物、情节、背景、主题等任意方向。系统提供的虚拟叙述者能够记忆对话上下文,并严格依据书籍原文进行回应,帮助读者在阅读过程中随时探索故事细节。
官方示例界面展示了以《傲慢与偏见》为对象的对话场景,界面提示「向我提问…《傲慢与偏见》」,背景采用渐变粉紫色设计,突出沉浸式互动氛围,并强调让读者「走进最喜欢的故事」。
https://elevenreader.io/
(@ElevenLabs@X)
3、众擎老板亲自挑战机器人,被一脚踹翻
近期,众擎机器人官方发布视频称,团队十分好奇机器人 T800 一脚踹到人身上到底有啥感觉。对此「用老板做了个实验测试下」。
从众擎团队公布的视频来看,T800 对准众擎机器人 CEO 赵同阳伸腿后,赵同阳整个人向后「飞」出去。
挨踹后的赵同阳直呼:「太暴力了、太残暴了。如果不戴护具没人能撑得住,绝对会骨折。」有网友表示:「你们员工太狠了,让老板亲自上阵。多少带了点私人恩怨。」
据了解,众擎 T800 身高 1.73 米,自重 75 千克,系众擎发布的首款「打工机器人」,售价为 18 万元起。
( @APPSO)
03
有态度的观点
1、AI 教父 Hinton 预言:Google Gemini 将超越 OpenAI GPT,引领 AI 市场
「AI 教父」 Geoffrey Hinton 近期表示,Google 凭借 Gemini 3、自研芯片、强大的数据资源和研究团队,正在超越 OpenAI。Hinton 认为 Google 凭借其综合优势,必将赢得这场 AI 领域的双雄之争,并且认为 Google「早该赢了」。
Gemini 3 Pro 的多模态能力: Google 发布了 Gemini 3 Pro,该模型在视觉理解方面取得突破,能从「看见」进化到「理解」,在文档、空间、屏幕和视频理解方面表现卓越。
文档理解: 具备高精度 OCR、复杂结构解析(如手写表格、数学公式)及「反渲染」能力,可将文档还原为结构化代码。在 CharXiv 基准测试中超越人类基线。
空间理解: 能指向图像中的具体位置,并进行 2D 图像到「世界模型」的关键一步;开放词汇指代能力使其能理解物体及其意图,应用于机器人和 AR/XR 场景。
屏幕理解: 显著提升了对桌面和移动设备界面的理解能力,支持计算机使用型智能体执行重复任务、QA 测试、UX 分析等。
视频理解: 在高帧率(高于 1 FPS)和复杂因果关系推理方面取得进展,能实现长视频的总结和应用生成。
Google 的综合优势: Hinton 指出 Google 在模型(Gemini 3、Nano Banana Pro)、自研芯片(TPU)、数据量、研究团队以及庞大的数据中心方面拥有显著优势。
市场竞争格局: Gemini 3 的发布带动了 Google 市值的增长。市场情报显示,Gemini 在下载增速、月活增速和用户使用时长方面正全面超越 ChatGPT,尽管 ChatGPT 仍拥有庞大的用户基数。
Google 的策略转变: Hinton 提及 Google 曾因对品牌声誉的担忧而变得谨慎,例如早期聊天机器人的发布顾虑,以及近期 AI 图像生成器出现的问题。但 Gemini 3 的发布标志着其在多模态理解上迈出了关键一步。
OpenAI 的挑战: ChatGPT 的增长势头趋缓,面临 Gemini、Claude 等竞品的压力。OpenAI CEO Sam Altman 已发出「红色警报」,要求团队聚焦提升 ChatGPT 的核心体验,以巩固用户飞轮优势。
Gemini 3 Pro 已发布,并在多项基准测试中刷新纪录。Gemini 产品正通过 Android 系统内置等方式扩大其全球市场份额。
(@新智元)
加入我们的 Voice Agent 社区
RTE 开发者社区持续关注 Voice Agent 和语音驱动的下一代人机交互界面。如果你对此也有浓厚兴趣,也期待和更多开发者交流(每个月都有线上/线下 meetup,以及学习笔记分享),欢迎加入我们的社区微信群,一同探索人和 AI 的实时互动新范式。
加入我们:加微信 Creators2022,备注身份和来意(公司/项目+职位+加群),备注完整者优先加群。
Pion 创始人聊 WebRTC、AI、SIP 和 QUIC I Voice Agent 学习笔记
2025 年语音 AI 趋势十大洞察丨Voice Agent 学习笔记
硅谷顶级 VC 如何看语音 AI?Greylock 合伙人揭秘 Voice Agent 构建的三层策略
AI 客服还不够聪明,但已超过月薪五千的人类丨RTE Meetup 回顾
引爆 AI 会议工具潮流,Granola 打造 2.5 亿美元估值产品的秘密丨Voice Agent 学习笔记
活动回顾丨主动式语音 AI:全双工加持,让 AI 既会抢答也懂适时沉默丨RTE Meetup
GPT-4o 之后,Voice 从 Assistant 到 Agent,新机会藏在哪些场景里?|Voice Agent 学习笔记
对话 Wispr Flow 创始人 Tanay:语音输入,如何创造极致的 Voice AI 产品体验
Notion 创始人 Ivan Zhao:传统软件开发是造桥,AI 开发更像酿酒,提供环境让 AI 自行发展
ElevenLabs 语音智能体提示词指南——解锁 AI 语音交互的「灵魂秘籍」丨 Voice Agent 学习笔记
写在最后:

