AV1 获艾美奖，Mozilla 披露 AV2 方向：面向实时交互；智谱开源语音合成模型 GLM‑TTS 丨日报

RTE开发者社区

2025-12-11

导读：本期关键词：艾美奖、3亿日元、AI 主题桌游

开发者朋友们大家好：

这里是「RTE 开发者日报」，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

本期编辑：@瓒an、@鲍勃

有话题的技术

1、Google AI Studio 推出 Gemini 2.5 Pro/Flash TTS 增强版，提升多模态交互与控制精度

Google AI Studio 发布了 Gemini 2.5 Flash 和 Gemini 2.5 Pro 文本转语音（TTS）预览模型的重大更新。新版本增强了模型的表现力、节奏控制和多说话人一致性，旨在满足内容创作者、开发者对高保真、精细化控制语音生成的需求。

Gemini 2.5 Flash/Pro TTS 更新：取代 5 月发布的旧版本，提供低延迟（Flash）和高质量（Pro）优化选项。
增强表现力（Enhanced Expressivity）：模型能更精准地理解并遵循风格提示，提供更丰富的音调变化，如「愉快乐观」到「忧郁严肃」，提升角色扮演一致性。
上下文感知节奏控制（Context-Aware Pacing）：模型能根据消息上下文动态调整语速，如在强调时放慢、在兴奋时加快。指令遵循的节奏控制精度显著提升。
多说话人一致性（Seamless Dialogue）：在多说话人场景下，模型能保持角色声音的连续性，并更自然地处理角色间的语音切换。
多语言能力提升：在所有 24 种支持语言中，模型能保持各角色独特的语调、音高和风格。
API 可用性：新模型已通过 Gemini API 在 Google AI Studio 中可用。

新版 Gemini 2.5 Flash 和 2.5 Pro TTS 模型现已通过 Gemini API 在 Google AI Studio 的 Playground 中可用。

Gemini 模型链接：

https://ai.google.dev/gemini-api/docs/models

试用链接：

https://aistudio.google.com/apps

https://aistudio.google.com/generate-speech

（@Google AI Studio）

2、AV1 获艾美奖：Mozilla 披露下一代 AV2 将原生支持 Alpha 通道与屏幕内容优化

当地时间 12 月 4 日，电视学院（Television Academy）正式授予 AV1 规范「技术与工程艾美奖」，标志着这一由 AOMedia 主导的免版税视频标准已从互联网领域渗透至主流广电行业。Mozilla 在回应中强调，此奖项验证了通过开源协作打破 H.264/H.265 专利授权壁垒的必要性，并正式确认了下一代编解码器 AV2 的关键技术特性。

打破「隐形税」体系： Mozilla 指出，Web 视频长期受制于 H.264 的封闭许可和 MPEG LA 复杂的收费架构。AV1 的核心价值在于建立基于 Google VP9、Mozilla Daala 和 Cisco Thor 技术的免版税（Royalty-Free）生态，消除了浏览器厂商（如 Firefox）的合规成本。
AV2 技术规格前瞻： AOMedia 正在研发的下一代 AV2 将重点解决 AV1 的短板。确定的更新包括：更激进的压缩率、针对屏幕内容的高效编码优化（利好远程桌面/云游戏），以及原生 Alpha 通道支持。
生态复用（AVIF）： AV1 的帧内编码（Intra-frame coding）技术已成功转化为 AVIF 图像格式。Mozilla 强调，这种基于视频编码的静态图像标准，正在成为替代 JPEG/WebP 的下一代通用格式。

值得注意的是 AOMedia 对 AV2 功能的定义——「屏幕内容优化」和「Alpha 通道」并非针对传统的电影播放，而是直指云游戏（Cloud Gaming）、远程桌面和实时合成场景。这暗示了 AOMedia 的野心已从单纯的视频流媒体，延伸至下一代实时交互基础设施。

https://blog.mozilla.org/en/mozilla/av1-video-codec-wins-emmy/

（@Mozilla Blog）

3、GLM‑TTS 开源：3 秒复刻声音，从情感表达到工业级落地

今天，智谱正式上线并开源 GLM‑TTS 工业级语音合成系统。

只需 3 秒语音样本，GLM‑TTS 即可学习说话人的音色和说话习惯。在通用朗读、情感配音、教育评测、电子书、有声客服等场景中，实现自然流畅、贴近真人的语音。

为实现这一能力，GLM‑TTS 在架构上采用两阶段生成，并在训练中引入基于 GRPO 的强化学习方案，在公开评测的「字错误率」和「情感表达」上取得开源 SOTA 表现。

值得一提的是，GLM-TTS 仅使用 10w 小时训练数据，远低于行业主流商用模型。同时，GLM-TTS 也兼顾了训练成本和效果，预训练仅需要单机 4 天即可得到开源 SOTA「发音准确度」与超高「音色还原度」，精品音色 LORA 和强化学习也仅需要单机 1 天即可完成训练，远低于行业平均水平。

另外，GLM‑TTS 还以更低的价格获得了行业领先的 MOS 分数（平均主观意见分）。

智谱在主流开源社区同步开源 GLM‑TTS 相关资源（模型权重、推理脚本、示例项目等）：

GitHub: https://github.com/zai-org/GLM-TTS
Hugging Face: https://huggingface.co/zai-org/GLM-TTS
魔搭社区：https://modelscope.cn/models/ZhipuAI/GLM-TTS

开发者可以基于主流推理框架，在 GPU 环境中快速部署 GLM‑TTS，并按需做二次开发。

（@GLM 大模型）

4、eSIM 采用率攀升：iPhone Air 等设备推动，激活率达 30%，中国市场蓄势待发

尽管全球 eSIM 采用率目前仍低（今年预计超 5%），但得益于苹果「iPhone Air」、谷歌「Pixel 10」等手机制造商推出 eSIM 专属设备，以及旅行市场对便捷连接的强劲需求，eSIM 的普及正在加速。分析师预计，eSIM 设备激活率将从 2024 年的 30% 增长到 2030 年的 75%，同时中国市场有望成为新的增长引擎。

手机制造商转向 eSIM-only 策略： Apple 在 2022 年为美国市场率先推出 eSIM-only「iPhone」，2025 年发布了 eSIM 专属的「iPhone Air」，并为「iPhone 17」系列在超过 11 个国家提供 eSIM-only 选项。Google 也在 2025 年「Pixel 10」上采用 eSIM-only 策略，这些手机通常提供略长的电池续航。
eSIM 渗透率与激活率显著增长： 2024 年，配备 eSIM 的智能手机渗透率全球为 23%（美国市场 41%）。2025 年上半年，市场已推出超过 60 款支持 eSIM 的智能手机。2024 年 eSIM 设备激活率为 30%，预计 2030 年将提升至 75%。
旅行场景驱动核心增长： GSMA 调查显示，51% 的 eSIM 用户将其用于旅行。Airalo 等第三方 eSIM 服务商通过旅行场景实现用户量激增，其中 85% 的 Airalo 用户是首次体验 eSIM。eSIM 的便利性和安全性（硬件绑定安全元素）是主要优势。

中国市场潜力释放： 2025 年 10 月，中国电信运营商开始提供 eSIM 支持。预计华为、小米、Oppo、Vivo 等中国品牌将逐步在中低端市场推出更多支持 eSIM 的设备，推动亚洲和非洲等经济敏感市场的普及。
行业投资与服务生态活跃： Airalo 完成 2.2 亿美元融资成为独角兽；法国 eSIM 初创公司 Kolet 获得 1000 万美元 A 轮融资；Nord 推出的 Saily eSIM 应用用户数已达七位数；Holafly 自 2018 年以来已售出超 1500 万张 eSIM，2024 年营收达 2 亿美元。

eSIM 技术和支持设备已广泛可用。eSIM 服务通过主流运营商及 Airalo、Holafly 等第三方应用提供，用户可按需选择。

（@TechCrunch）

有亮点的产品

1、企业语音 AI 客服 Recho 完成 3 亿日元 A 轮融资，加速企业级 Voice AI 平台通用化

日本 Voice AI 平台提供商株式会社 Recho 宣布完成 A 轮融资，总额 3 亿日元，由 SBI Investment 领投。本轮融资将用于加速其企业级 Voice AI 平台在多行业通用化落地，并强化技术研发和组织能力。

融资 3 亿日元：由 SBI Investment 领投，用于拓展企业市场。
自研 AI 原生语音架构：Recho 从创立之初即自主研发了包含 TTS、ASR 和对话控制的语音技术栈，而非基于现有 IVR/Chatbot 架构。
全球顶尖 TTS/ASR 性能：其自主研发的语音合成（TTS）和语音识别（ASR）模型已在全球基准测试中达到顶尖水平，特别是在日语的自然度和识别精度方面具备优势。
企业级应用验证：自 2024 年 4 月服务上线以来，已在金融、行政等高安全要求领域进行部署，验证了平台在对话复杂性、音质、稳定性及安全性方面的企业级标准。
高工程师占比：Recho 拥有超过 90%的工程师团队，能够实现从基础模型研发到客户部署的一站式交付，并快速将客户反馈应用于技术迭代。

Recho 平台目前已在企业市场提供服务，融资将用于进一步扩大服务范围和产品通用化。

（@PR TIMES）

2、Tavus 推出「Tavus PAL」AI Santa 增强版：支持视觉感知与自主动作，用户互动时长达数小时

AI 初创公司 Tavus 发布了其 AI Santa 体验的增强版本，核心升级为「Tavus PAL」实时智能体架构。新版 AI Santa 可感知用户表情、记忆对话，并执行自主动作，实现高度个性化和沉浸式的多模态交互，吸引用户日均互动数小时。

「Tavus PAL」智能体架构：AI Santa 已升级为 Tavus 的「Tavus PAL」（Personalized AI Agent），具备实时「看」（see）、「听」（hear）、「响应」（respond）和「类人外观」（appear human）的能力。
视觉感知与情感理解：智能体能够识别并响应用户的表情和手势，并记忆此前的对话和兴趣点，实现个性化交互。
自主行动能力：新增功能允许 AI Santa 执行自主动作，如搜索网页获取礼物创意或起草电子邮件等日常任务。
高用户互动时长：测试数据显示，许多用户与 AI Santa 的互动时长达数小时，并经常触及每日使用上限，预计将大幅超越去年的「百万次点击」量。
多模态交互支持：用户可通过文本、电话或视频聊天方式与 AI Santa 进行互动。
内置安全与隐私机制：为确保互动内容适合家庭，系统实施内容过滤，可在必要时终止对话并引导用户至心理健康资源。数据收集限于日志、时间戳、元数据及用户共享信息，并承诺用户可随时请求数据删除。