01
有话题的技术
1、Google AI Studio 推出 Gemini 2.5 Pro/Flash TTS 增强版,提升多模态交互与控制精度
Google AI Studio 发布了 Gemini 2.5 Flash 和 Gemini 2.5 Pro 文本转语音(TTS)预览模型的重大更新。新版本增强了模型的表现力、节奏控制和多说话人一致性,旨在满足内容创作者、开发者对高保真、精细化控制语音生成的需求。
Gemini 2.5 Flash/Pro TTS 更新:取代 5 月发布的旧版本,提供低延迟(Flash)和高质量(Pro)优化选项。
增强表现力 (Enhanced Expressivity):模型能更精准地理解并遵循风格提示,提供更丰富的音调变化,如「愉快乐观」到「忧郁严肃」,提升角色扮演一致性。
上下文感知节奏控制 (Context-Aware Pacing):模型能根据消息上下文动态调整语速,如在强调时放慢、在兴奋时加快。指令遵循的节奏控制精度显著提升。
多说话人一致性 (Seamless Dialogue):在多说话人场景下,模型能保持角色声音的连续性,并更自然地处理角色间的语音切换。
多语言能力提升:在所有 24 种支持语言中,模型能保持各角色独特的语调、音高和风格。
API 可用性:新模型已通过 Gemini API 在 Google AI Studio 中可用。
新版 Gemini 2.5 Flash 和 2.5 Pro TTS 模型现已通过 Gemini API 在 Google AI Studio 的 Playground 中可用。
Gemini 模型链接:
https://ai.google.dev/gemini-api/docs/models
试用链接:
https://aistudio.google.com/apps
https://aistudio.google.com/generate-speech
(@Google AI Studio)
2、AV1 获艾美奖:Mozilla 披露下一代 AV2 将原生支持 Alpha 通道与屏幕内容优化
当地时间 12 月 4 日,电视学院(Television Academy)正式授予 AV1 规范「技术与工程艾美奖」,标志着这一由 AOMedia 主导的免版税视频标准已从互联网领域渗透至主流广电行业。Mozilla 在回应中强调,此奖项验证了通过开源协作打破 H.264/H.265 专利授权壁垒的必要性,并正式确认了下一代编解码器 AV2 的关键技术特性。
打破「隐形税」体系: Mozilla 指出,Web 视频长期受制于 H.264 的封闭许可和 MPEG LA 复杂的收费架构。AV1 的核心价值在于建立基于 Google VP9、Mozilla Daala 和 Cisco Thor 技术的免版税(Royalty-Free)生态,消除了浏览器厂商(如 Firefox)的合规成本。
AV2 技术规格前瞻: AOMedia 正在研发的下一代 AV2 将重点解决 AV1 的短板。确定的更新包括:更激进的压缩率、针对屏幕内容的高效编码优化(利好远程桌面/云游戏),以及原生 Alpha 通道支持。
生态复用(AVIF): AV1 的帧内编码(Intra-frame coding)技术已成功转化为 AVIF 图像格式。Mozilla 强调,这种基于视频编码的静态图像标准,正在成为替代 JPEG/WebP 的下一代通用格式。
值得注意的是 AOMedia 对 AV2 功能的定义——「屏幕内容优化」和「Alpha 通道」并非针对传统的电影播放,而是直指云游戏(Cloud Gaming)、远程桌面和实时合成场景。这暗示了 AOMedia 的野心已从单纯的视频流媒体,延伸至下一代实时交互基础设施。
https://blog.mozilla.org/en/mozilla/av1-video-codec-wins-emmy/
(@Mozilla Blog)
3、GLM‑TTS 开源:3 秒复刻声音,从情感表达到工业级落地
今天,智谱正式上线并开源 GLM‑TTS 工业级语音合成系统。
只需 3 秒语音样本,GLM‑TTS 即可学习说话人的音色和说话习惯。在通用朗读、情感配音、教育评测、电子书、有声客服等场景中,实现自然流畅、贴近真人的语音。
为实现这一能力,GLM‑TTS 在架构上采用两阶段生成,并在训练中引入基于 GRPO 的强化学习方案,在公开评测的「字错误率」和「情感表达」上取得开源 SOTA 表现。
值得一提的是,GLM-TTS 仅使用 10w 小时训练数据,远低于行业主流商用模型。同时,GLM-TTS 也兼顾了训练成本和效果,预训练仅需要单机 4 天即可得到开源 SOTA「发音准确度」与超高「音色还原度」,精品音色 LORA 和强化学习也仅需要单机 1 天即可完成训练,远低于行业平均水平。
另外,GLM‑TTS 还以更低的价格获得了行业领先的 MOS 分数(平均主观意见分)。
智谱在主流开源社区同步开源 GLM‑TTS 相关资源(模型权重、推理脚本、示例项目等):
GitHub: https://github.com/zai-org/GLM-TTS
Hugging Face: https://huggingface.co/zai-org/GLM-TTS
魔搭社区:https://modelscope.cn/models/ZhipuAI/GLM-TTS
开发者可以基于主流推理框架,在 GPU 环境中快速部署 GLM‑TTS,并按需做二次开发。
(@GLM 大模型)
4、eSIM 采用率攀升:iPhone Air 等设备推动,激活率达 30%,中国市场蓄势待发
尽管全球 eSIM 采用率目前仍低(今年预计超 5%),但得益于苹果「iPhone Air」、谷歌「Pixel 10」等手机制造商推出 eSIM 专属设备,以及旅行市场对便捷连接的强劲需求,eSIM 的普及正在加速。分析师预计,eSIM 设备激活率将从 2024 年的 30% 增长到 2030 年的 75%,同时中国市场有望成为新的增长引擎。
手机制造商转向 eSIM-only 策略: Apple 在 2022 年为美国市场率先推出 eSIM-only「iPhone」,2025 年发布了 eSIM 专属的「iPhone Air」,并为「iPhone 17」系列在超过 11 个国家提供 eSIM-only 选项。Google 也在 2025 年「Pixel 10」上采用 eSIM-only 策略,这些手机通常提供略长的电池续航。
eSIM 渗透率与激活率显著增长: 2024 年,配备 eSIM 的智能手机渗透率全球为 23%(美国市场 41%)。2025 年上半年,市场已推出超过 60 款支持 eSIM 的智能手机。2024 年 eSIM 设备激活率为 30%,预计 2030 年将提升至 75%。
旅行场景驱动核心增长: GSMA 调查显示,51% 的 eSIM 用户将其用于旅行。Airalo 等第三方 eSIM 服务商通过旅行场景实现用户量激增,其中 85% 的 Airalo 用户是首次体验 eSIM。eSIM 的便利性和安全性(硬件绑定安全元素)是主要优势。
中国市场潜力释放: 2025 年 10 月,中国电信运营商开始提供 eSIM 支持。预计华为、小米、Oppo、Vivo 等中国品牌将逐步在中低端市场推出更多支持 eSIM 的设备,推动亚洲和非洲等经济敏感市场的普及。
行业投资与服务生态活跃: Airalo 完成 2.2 亿美元融资成为独角兽;法国 eSIM 初创公司 Kolet 获得 1000 万美元 A 轮融资;Nord 推出的 Saily eSIM 应用用户数已达七位数;Holafly 自 2018 年以来已售出超 1500 万张 eSIM,2024 年营收达 2 亿美元。
eSIM 技术和支持设备已广泛可用。eSIM 服务通过主流运营商及 Airalo、Holafly 等第三方应用提供,用户可按需选择。
(@TechCrunch)
02
有亮点的产品
1、企业语音 AI 客服 Recho 完成 3 亿日元 A 轮融资,加速企业级 Voice AI 平台通用化
日本 Voice AI 平台提供商株式会社 Recho 宣布完成 A 轮融资,总额 3 亿日元,由 SBI Investment 领投。本轮融资将用于加速其企业级 Voice AI 平台在多行业通用化落地,并强化技术研发和组织能力。
融资 3 亿日元:由 SBI Investment 领投,用于拓展企业市场。
自研 AI 原生语音架构:Recho 从创立之初即自主研发了包含 TTS、ASR 和对话控制的语音技术栈,而非基于现有 IVR/Chatbot 架构。
全球顶尖 TTS/ASR 性能:其自主研发的语音合成(TTS)和语音识别(ASR)模型已在全球基准测试中达到顶尖水平,特别是在日语的自然度和识别精度方面具备优势。
企业级应用验证:自 2024 年 4 月服务上线以来,已在金融、行政等高安全要求领域进行部署,验证了平台在对话复杂性、音质、稳定性及安全性方面的企业级标准。
高工程师占比:Recho 拥有超过 90%的工程师团队,能够实现从基础模型研发到客户部署的一站式交付,并快速将客户反馈应用于技术迭代。
Recho 平台目前已在企业市场提供服务,融资将用于进一步扩大服务范围和产品通用化。
(@PR TIMES)
2、Tavus 推出「Tavus PAL」AI Santa 增强版:支持视觉感知与自主动作,用户互动时长达数小时
AI 初创公司 Tavus 发布了其 AI Santa 体验的增强版本,核心升级为「Tavus PAL」实时智能体架构。新版 AI Santa 可感知用户表情、记忆对话,并执行自主动作,实现高度个性化和沉浸式的多模态交互,吸引用户日均互动数小时。
「Tavus PAL」智能体架构:AI Santa 已升级为 Tavus 的「Tavus PAL」(Personalized AI Agent),具备实时「看」(see)、「听」(hear)、「响应」(respond)和「类人外观」(appear human)的能力。
视觉感知与情感理解:智能体能够识别并响应用户的表情和手势,并记忆此前的对话和兴趣点,实现个性化交互。
自主行动能力:新增功能允许 AI Santa 执行自主动作,如搜索网页获取礼物创意或起草电子邮件等日常任务。
高用户互动时长:测试数据显示,许多用户与 AI Santa 的互动时长达数小时,并经常触及每日使用上限,预计将大幅超越去年的「百万次点击」量。
多模态交互支持:用户可通过文本、电话或视频聊天方式与 AI Santa 进行互动。
内置安全与隐私机制:为确保互动内容适合家庭,系统实施内容过滤,可在必要时终止对话并引导用户至心理健康资源。数据收集限于日志、时间戳、元数据及用户共享信息,并承诺用户可随时请求数据删除。
AI Santa 体验目前已通过免费账户开放使用。
体验链接:https://santa.tavus.io/
(@TechCrunch)
03
有态度的观点
1、何小鹏谈为何把机器人做成人形:社会都是为了人去思考、设计
日前,小鹏汽车董事长何小鹏在参加极客公园创新大会 2026 上,谈到了「为何把机器人做成人形」这一热门话题。
何小鹏表示,小鹏的机器人,其希望能够真正走入到商业、工业、家庭,在未来的时间。「所以我们一直都觉得它需要拟人,一个拟人的机器人需要有人的形态、人的长相、人的肌肉、人的皮肤。」
何小鹏坦言,小鹏这一次做的机器人里面,第一次发现了以前团队人员自己研发机器人七年,却不愿意碰、拥抱这个机器人。
因为你看到这个机器人是个钢铁,你会担心它有电,你会担心它有威胁,担心它摸起来不舒服。一旦当机器人有肌肤、皮肤、血肉的时候,你会感觉到它是真正可能是你未来的伙伴。
具体来看,何小鹏认为环境适配性、数据获取、工具使用都将是解答「为何把机器人做成人形」的核心:
环境适配性:因为这个世界是按照人去设计的。如果想让一个机器人更容易适应于这个社会,人形是非常重要的,因为这个社会都是为了人类去思考、设计、使用的。
数据获取:只有把机器人做成人形,才能直接利用海量的人类行为数据,来对机器人进行训练。如果做一个专有机器人,要获得海量数据是非常困难的。
工具使用:这个世界上有 100 万种工具为人而设计去使用的,人形机器人可以最大程度适应这些工具。
今年 11 月,小鹏在科技日活动上展示了最新一代人形机器人 IRON。该机器人在舞台上走「猫步」如人一样轻盈,因此引发互联网一阵猜疑,不少网友更是称「里面是真人扮演的」。
活动后,何小鹏及机器人团队不得不将机器人蒙皮、打印骨骼剪开,以此证明「真·机器人」。
(@APPSO)
04
社区黑板报
招聘、项目分享、求助……任何你想和社区分享的信息,请联系我们投稿。(加微信 creators2022,备注「社区黑板报」)
1、活动报名丨全球首款 AI 主题桌游《Talk With》线下开玩!上海 GDPS 2025 见!
📅 时间:12 月 13 日(周六)下午
📍 地点:GDPS 全球开发者先锋大会,上海张江科学会堂
除了沉浸式体验《Talk With》桌游,我们还特别邀请到 TEN Framework 的增长黑客 June,带来一场关于对话式 AI 产品与技术趋势的精彩分享——助你快速把握行业脉搏、洞察技术前沿。动脑又动手,玩中学、学中玩,千万别错过!
加入我们的 Voice Agent 社区
RTE 开发者社区持续关注 Voice Agent 和语音驱动的下一代人机交互界面。如果你对此也有浓厚兴趣,也期待和更多开发者交流(每个月都有线上/线下 meetup,以及学习笔记分享),欢迎加入我们的社区微信群,一同探索人和 AI 的实时互动新范式。
加入我们:加微信 Creators2022,备注身份和来意(公司/项目+职位+加群),备注完整者优先加群。
Pion 创始人聊 WebRTC、AI、SIP 和 QUIC I Voice Agent 学习笔记
2025 年语音 AI 趋势十大洞察丨Voice Agent 学习笔记
硅谷顶级 VC 如何看语音 AI?Greylock 合伙人揭秘 Voice Agent 构建的三层策略
AI 客服还不够聪明,但已超过月薪五千的人类丨RTE Meetup 回顾
引爆 AI 会议工具潮流,Granola 打造 2.5 亿美元估值产品的秘密丨Voice Agent 学习笔记
活动回顾丨主动式语音 AI:全双工加持,让 AI 既会抢答也懂适时沉默丨RTE Meetup
GPT-4o 之后,Voice 从 Assistant 到 Agent,新机会藏在哪些场景里?|Voice Agent 学习笔记
对话 Wispr Flow 创始人 Tanay:语音输入,如何创造极致的 Voice AI 产品体验
Notion 创始人 Ivan Zhao:传统软件开发是造桥,AI 开发更像酿酒,提供环境让 AI 自行发展
ElevenLabs 语音智能体提示词指南——解锁 AI 语音交互的「灵魂秘籍」丨 Voice Agent 学习笔记
写在最后:

