01
有话题的技术
1、Google 发布 Gemini 2.5 Flash Native Audio 模型
Google 发布了最新的 Gemini 2.5 Flash Native Audio 模型(正式名称 gemini-2.5-flash-native-audio-preview-09-2025),现已在 AI Studio 上开放预览。该版本重点提升语音交互的自然度与可靠性,为构建更强大的语音 Agent 带来显著改进。
在功能调用方面,新模型的可靠性提升了两倍;在对话体验上,则强化了主动音频处理能力,能够自动忽略与语境无关的闲聊,更好地理解自然停顿和用户中断。
此外,Google 计划在下周引入类似于 Gemini 2.5 Flash 与 Pro 的「思考」功能。对于需要深入推理的复杂任务,开发者将可设定「思考预算」,让模型有更充足的时间进行处理,并以文本摘要的形式返回其思考过程。
相关链接:
https://ai.google.dev/gemini-api/docs/live
(@Google Dev)
2、阿里开源「Qwen3Guard」:119 种语言 AI 安全审核模型
阿里近日宣布开源其基于 Qwen3 构建的安全审核模型系列 Qwen3Guard,专为全球范围内的实时 AI 安全设计。该模型系列支持 119 种语言和方言,并提供 0.6B、4B 和 8B 三种不同规模,以适应多样化的应用需求。
Qwen3Guard 包含两个主要版本:Qwen3Guard-Stream 专注于提供低延迟、实时流式检测能力;而 Qwen3Guard-Gen 则具备强大的全上下文安全分析能力,是强化学习奖励建模的理想选择。
该系列模型采用三级风险分类体系,将内容划分为安全、有争议和不安全三类。在多项安全基准测试中,Qwen3Guard 在英语、中文及更多语言上均表现领先。所有模型均已根据 Apache 2.0 许可证开源。
相关链接:
https://qwen.ai/blog?id=f0bbad0677edf58ba93d80a1e12ce458f7a80548&from=research.research-list
https://huggingface.co/collections/Qwen/qwen3guard-68d2729abbfae4716f3343a1
(@通义千问)
3、Qwen 发布「Qwen3-LiveTranslate-Flash」:高精度实时音视频同传
Qwen 团队近日发布了其最新模型 Qwen3-LiveTranslate-Flash,这是一款基于大语言模型的高精度、高响应、高鲁棒性的多语言实时音视频同传模型。
该模型依托 Qwen3-Omni 强大的基座能力,并融合了海量的多模态数据及百万小时的音视频数据训练,最终实现了对 18 种语言的离线和实时音视频翻译能力,为跨语言交流提供了强大的技术支持。
目前,Qwen3-LiveTranslate-Flash 已在 Hugging Face 上提供演示版本供用户体验,其 API 也已同步上线阿里云百炼平台,开发者可即刻调用。
相关链接:
https://qwen.ai/blog?id=4266edf7f3718f2d3fda098b3f4c48f3573215d0&from=home.latest-research-list
https://help.aliyun.com/zh/model-studio/qwen3-livetranslate-flash-realtime
https://huggingface.co/spaces/Qwen/Qwen3-Livetranslate-Demo
(@通义千问)
02
有亮点的产品
1、Suno 发布 v5 音乐模型
Suno 发布了 v5 音乐模型,这是被描述为「世界最佳音乐模型」的新版本。该模型已面向 Pro 和 Premier 订阅用户推出,提供更沉浸式的音频体验、更真实的人声以及无与伦比的创意控制能力。
相关链接:
https://x.com/SunoMusic/status/1970583230807167300
2、苹果 iOS 26.1 Beta 1 为 AirPods 实时翻译功能新增中文支持
苹果公司在其 iOS 26.1 Beta 1 版本中为 AirPods 实时翻译功能带来了重要更新,新增了包括简体中文、繁体中文、日语、韩语和意大利语在内的多种语言支持。
这项实时翻译功能利用了 iPhone 的苹果 AI 技术,旨在打破语言障碍,让使用不同语言的用户能够进行无缝、直接的跨语言交流。此次更新极大地拓展了该功能的应用场景,为全球更多用户提供了便捷的实时翻译体验。
(@IOS 新知)
03
有态度的观点
1、YouTube CEO:AI 是「下一次大爆炸」
据 Wired 报道,YouTube 在成立 20 周年之际宣布全面拥抱人工智能技术,推出多项面向创作者的 AI 功能。
官方表示,这些工具将帮助用户通过提示词生成视频内容,并可自动为播客音频生成匹配的视觉画面。
YouTube CEO Neal Mohan 在接受采访时回顾了平台的成长历程,并强调 AI 是延续「让更多人发声」这一核心使命的最新技术手段。
当 YouTube 诞生时,技术让更多人能够被听到;如今 AI 也是同样的原则 —— 用技术来让创作更普惠。
据悉,部分新功能基于 Google DeepMind 的 Veo 3 技术,支持即时生成复杂场景视频,例如「在月球上的 100 位印尼舞者」。
平台将对 AI 生成内容进行标注,但目前没有提供过滤选项。
Mohan 认为,AI 视频的价值取决于创作者的原创性和创意,而非生成比例。
(@APPSO)
加入我们的 Voice Agent 社区
RTE 开发者社区持续关注 Voice Agent 和语音驱动的下一代人机交互界面。如果你对此也有浓厚兴趣,也期待和更多开发者交流(每个月都有线上/线下 meetup,以及学习笔记分享),欢迎加入我们的社区微信群,一同探索人和 AI 的实时互动新范式。
加入我们:加微信 Creators2022,备注身份和来意(公司/项目+职位+加群),备注完整者优先加群。
硅谷顶级 VC 如何看语音 AI?Greylock 合伙人揭秘 Voice Agent 构建的三层策略
AI 客服还不够聪明,但已超过月薪五千的人类丨RTE Meetup 回顾
引爆 AI 会议工具潮流,Granola 打造 2.5 亿美元估值产品的秘密丨Voice Agent 学习笔记
活动回顾丨主动式语音 AI:全双工加持,让 AI 既会抢答也懂适时沉默丨RTE Meetup
GPT-4o 之后,Voice 从 Assistant 到 Agent,新机会藏在哪些场景里?|Voice Agent 学习笔记
对话 Wispr Flow 创始人 Tanay:语音输入,如何创造极致的 Voice AI 产品体验
Notion 创始人 Ivan Zhao:传统软件开发是造桥,AI 开发更像酿酒,提供环境让 AI 自行发展
ElevenLabs 语音智能体提示词指南——解锁 AI 语音交互的「灵魂秘籍」丨 Voice Agent 学习笔记
11Labs 增长负责人分享:企业级市场将从消费级或开发者切入丨Voice Agent 学习笔记
实时多模态如何重塑未来交互?我们邀请 Gemini 解锁了 39 个实时互动新可能丨Voice Agent 学习笔记
写在最后:

