Qwen 发布高精度实时音视频同传模型；AirPods 实时翻译功能新增中文丨日报



Qwen 发布高精度实时音视频同传模型；AirPods 实时翻译功能新增中文丨日报

RTE开发者社区

2025-09-24

导读：本期关键词：实时音视频同传模型、安全审核模型、v5 音乐模型

开发者朋友们大家好：

这里是「RTE 开发者日报」，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

本期编辑：@Jerry fong，@鲍勃

有话题的技术

1、Google 发布 Gemini 2.5 Flash Native Audio 模型

Google 发布了最新的 Gemini 2.5 Flash Native Audio 模型（正式名称 gemini-2.5-flash-native-audio-preview-09-2025），现已在 AI Studio 上开放预览。该版本重点提升语音交互的自然度与可靠性，为构建更强大的语音 Agent 带来显著改进。

在功能调用方面，新模型的可靠性提升了两倍；在对话体验上，则强化了主动音频处理能力，能够自动忽略与语境无关的闲聊，更好地理解自然停顿和用户中断。

此外，Google 计划在下周引入类似于 Gemini 2.5 Flash 与 Pro 的「思考」功能。对于需要深入推理的复杂任务，开发者将可设定「思考预算」，让模型有更充足的时间进行处理，并以文本摘要的形式返回其思考过程。

相关链接：

https://ai.google.dev/gemini-api/docs/live

(@Google Dev)

2、阿里开源「Qwen3Guard」：119 种语言 AI 安全审核模型

阿里近日宣布开源其基于 Qwen3 构建的安全审核模型系列 Qwen3Guard，专为全球范围内的实时 AI 安全设计。该模型系列支持 119 种语言和方言，并提供 0.6B、4B 和 8B 三种不同规模，以适应多样化的应用需求。

Qwen3Guard 包含两个主要版本：Qwen3Guard-Stream 专注于提供低延迟、实时流式检测能力；而 Qwen3Guard-Gen 则具备强大的全上下文安全分析能力，是强化学习奖励建模的理想选择。

该系列模型采用三级风险分类体系，将内容划分为安全、有争议和不安全三类。在多项安全基准测试中，Qwen3Guard 在英语、中文及更多语言上均表现领先。所有模型均已根据 Apache 2.0 许可证开源。

相关链接：

https://qwen.ai/blog?id=f0bbad0677edf58ba93d80a1e12ce458f7a80548&from=research.research-list

https://huggingface.co/collections/Qwen/qwen3guard-68d2729abbfae4716f3343a1

（@通义千问）

3、Qwen 发布「Qwen3-LiveTranslate-Flash」：高精度实时音视频同传

Qwen 团队近日发布了其最新模型 Qwen3-LiveTranslate-Flash，这是一款基于大语言模型的高精度、高响应、高鲁棒性的多语言实时音视频同传模型。

该模型依托 Qwen3-Omni 强大的基座能力，并融合了海量的多模态数据及百万小时的音视频数据训练，最终实现了对 18 种语言的离线和实时音视频翻译能力，为跨语言交流提供了强大的技术支持。

目前，Qwen3-LiveTranslate-Flash 已在 Hugging Face 上提供演示版本供用户体验，其 API 也已同步上线阿里云百炼平台，开发者可即刻调用。

相关链接：

https://qwen.ai/blog?id=4266edf7f3718f2d3fda098b3f4c48f3573215d0&from=home.latest-research-list

https://help.aliyun.com/zh/model-studio/qwen3-livetranslate-flash-realtime

https://huggingface.co/spaces/Qwen/Qwen3-Livetranslate-Demo

（@通义千问）

有亮点的产品

1、Suno 发布 v5 音乐模型

Suno 发布了 v5 音乐模型，这是被描述为「世界最佳音乐模型」的新版本。该模型已面向 Pro 和 Premier 订阅用户推出，提供更沉浸式的音频体验、更真实的人声以及无与伦比的创意控制能力。

相关链接：

https://x.com/SunoMusic/status/1970583230807167300

2、苹果 iOS 26.1 Beta 1 为 AirPods 实时翻译功能新增中文支持

苹果公司在其 iOS 26.1 Beta 1 版本中为 AirPods 实时翻译功能带来了重要更新，新增了包括简体中文、繁体中文、日语、韩语和意大利语在内的多种语言支持。

这项实时翻译功能利用了 iPhone 的苹果 AI 技术，旨在打破语言障碍，让使用不同语言的用户能够进行无缝、直接的跨语言交流。此次更新极大地拓展了该功能的应用场景，为全球更多用户提供了便捷的实时翻译体验。

（@IOS 新知）

有态度的观点

1、YouTube CEO：AI 是「下一次大爆炸」

据 Wired 报道，YouTube 在成立 20 周年之际宣布全面拥抱人工智能技术，推出多项面向创作者的 AI 功能。

官方表示，这些工具将帮助用户通过提示词生成视频内容，并可自动为播客音频生成匹配的视觉画面。

YouTube CEO Neal Mohan 在接受采访时回顾了平台的成长历程，并强调 AI 是延续「让更多人发声」这一核心使命的最新技术手段。

当 YouTube 诞生时，技术让更多人能够被听到；如今 AI 也是同样的原则 —— 用技术来让创作更普惠。

据悉，部分新功能基于 Google DeepMind 的 Veo 3 技术，支持即时生成复杂场景视频，例如「在月球上的 100 位印尼舞者」。

平台将对 AI 生成内容进行标注，但目前没有提供过滤选项。

Mohan 认为，AI 视频的价值取决于创作者的原创性和创意，而非生成比例。

(@APPSO)

加入我们的 Voice Agent 社区

RTE 开发者社区持续关注 Voice Agent 和语音驱动的下一代人机交互界面。如果你对此也有浓厚兴趣，也期待和更多开发者交流（每个月都有线上/线下 meetup，以及学习笔记分享），欢迎加入我们的社区微信群，一同探索人和 AI 的实时互动新范式。

加入我们：加微信 Creators2022，备注身份和来意（公司/项目+职位+加群），备注完整者优先加群。

更多 Voice Agent 学习笔记：

硅谷顶级 VC 如何看语音 AI？Greylock 合伙人揭秘 Voice Agent 构建的三层策略

AI 客服还不够聪明，但已超过月薪五千的人类丨RTE Meetup 回顾

引爆 AI 会议工具潮流，Granola 打造 2.5 亿美元估值产品的秘密丨Voice Agent 学习笔记

活动回顾丨主动式语音 AI：全双工加持，让 AI 既会抢答也懂适时沉默丨RTE Meetup

GPT-4o 之后，Voice 从 Assistant 到 Agent，新机会藏在哪些场景里？｜Voice Agent 学习笔记

对话 Wispr Flow 创始人 Tanay：语音输入，如何创造极致的 Voice AI 产品体验

Notion 创始人 Ivan Zhao：传统软件开发是造桥，AI 开发更像酿酒，提供环境让 AI 自行发展

ElevenLabs 语音智能体提示词指南——解锁 AI 语音交互的「灵魂秘籍」丨 Voice Agent 学习笔记

11Labs 增长负责人分享：企业级市场将从消费级或开发者切入丨Voice Agent 学习笔记

实时多模态如何重塑未来交互？我们邀请 Gemini 解锁了 39 个实时互动新可能丨Voice Agent 学习笔记

写在最后：

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创，感兴趣的朋友请通过开发者社区或公众号留言联系，记得报暗号「共创」。

对于任何反馈（包括但不限于内容上、形式上）我们不胜感激、并有小惊喜回馈，例如你希望从日报中看到哪些内容；自己推荐的信源、项目、话题、活动等；或者列举几个你喜欢看、平时常看的内容渠道；内容排版或呈现形式上有哪些可以改进的地方等。

【声明】内容源于网络

RTE开发者社区

RTE 开发者社区是聚焦实时互动领域的中立开发者社区。不止于纯粹的技术交流，我们相信开发者具备更加丰盈的个体价值。行业发展变革、开发者职涯发展、技术创业创新资源，我们将陪跑开发者，共享、共建、共成长。

内容 1122

粉丝 0

RTE开发者社区 RTE 开发者社区是聚焦实时互动领域的中立开发者社区。不止于纯粹的技术交流，我们相信开发者具备更加丰盈的个体价值。行业发展变革、开发者职涯发展、技术创业创新资源，我们将陪跑开发者，共享、共建、共成长。

总阅读653

粉丝0

内容1.1k