点击蓝字 关注我们
谷歌本周发布了一项重大创新——Gemini 2.5 Flash Native Audio(原生音频模型)。
过去的AI语音交互流程通常是:接收音频——转换为文本——AI处理文本——生成文字回复——再转换为语音播出。这个过程不仅速度较慢,而且在多次转换中,语气、停顿和情感这些在人类交流中至关重要的细节常常丢失。
而谷歌这次推出的Gemini 2.5 Flash Native Audio,其核心就在于“原生”处理。它无需将声音转化为文字再处理,而是能够直接听取、理解和表达。
这就好比你和一个外国人交流,过去你可能需要在脑海中快速翻阅字典,如今你已经拥有了「语感」,能够轻松对答。
在此次更新中,谷歌不仅提升了Gemini 2.5 Pro和Flash的文本到语音模型,使其具备更强的操控能力。更为关键的是,它让实时语音代理(Live Voice Agents)成为现实。
这意味着在Google AI Studio、Vertex AI,甚至是搜索(Search Live)中,你不再只是与一个冰冷的机器沟通,而是与一个具有思维和聆听能力的智能助手进行实时的头脑风暴。
1
在这次更新中,最令普通用户兴奋的无疑是实时语音翻译(Live Speech Translation)功能。
这次谷歌不再只是画饼,这项功能已经在美国、墨西哥和印度的安卓设备上,通过Google翻译App进入Beta测试阶段(iOS用户稍安勿躁,马上就会上线)。
该功能有两个关键特点,完美解决用户痛点:
1
持续监听与双向对话
真正的「无感」翻译
过去使用翻译软件时,最让人头疼的就是需要不断地点击“说话”按钮。如今,Gemini能够实现持续监听。你可以将手机放进口袋,戴上耳机,Gemini会自动将你周围听到的多种语言实时翻译成你的母语。这就像随身带着一位隐形翻译官。在双向对话模式下,Gemini显得更加智能。
例如,你会说英语,想与一位说泰语的人交流。Gemini能够自动识别谁在说话。当你用耳机接收到的都是英语,而当你说完话后,手机则会自动播放泰语给对方听。你无需设置“现在我说”或“现在他说”,系统会全自动切换。
2
风格迁移
连「情绪」都能翻译
传统的翻译就像无感情的朗读机器,但Gemini凭借其卓越的音频处理能力,能够捕捉到人类语言中的细微差别。当对方讲话时,如果语调轻快、富有活力,翻译后的声音同样会显得欢快;而如果对方的语气显得沉重或犹豫,翻译后的声音也会带着一丝迟疑和沉思。它有效保留了说话者的语调、节奏和音高。这不仅仅是理解语言的含义,更是体会说话者的情感态度。在商务谈判或者吵架的时候,这个功能简直太重要了!
此外,它还支持:
支持超过70种语言和2000多个语言组合:涵盖全球绝大多数人的母语
多语言混合输入:即使在同一场对话中使用多种语言,它也能同时理解,无需手动切换
抗噪能力:专为嘈杂环境优化,可有效过滤背景噪音,即使在嘈杂的户外市场中也能保持清晰的听觉体验
2
如果你是一名开发者,或者计划为企业构建客服AI,Gemini 2.5 Flash Native Audio的三大底层能力提升绝对是一个无比及时的助力。
1
函数调用更精准
过去的语音助手在处理诸如查询天气和航班等需要访问外部数据的操作时,常常会陷入停滞或给出令人觉得缺乏自然的回答。
而如今的Gemini 2.5,能够智能识别何时需要获取实时数据,并能将获取的信息无缝融入语音回复中,从而保持对话的流畅性。
在ComplexFuncBench Audio评测中,这款产品在复杂多步骤函数调用的测试中表现出色,取得了71.5%的高分,显著领先其他竞争者。
2
指令遵循更听话
有没有经常感觉AI难以理解复杂的指令?谷歌这次进行了重大改进。新模型对开发者指令的执行准确率从84%提升至90%!
这意味着,如果你要求AI「用这种特定的格式回答,语气要严厉一点,不要废话」,它将能够更精确地满足你的要求。对于开发企业级服务而言,这种可靠性正是关键的竞争优势。
3
对话更丝滑
多轮对话一直是AI领域的难题。
通常情况下,AI在对话中容易忘记之前的信息。然而,Gemini 2.5在检索上下文方面取得了显著的进展。它能够更加有效地记忆和引用之前的对话内容,使整个交流不仅流畅,还具有逻辑性。再加上其原生音频的低延迟体验,让你感觉就像在面对面交流一样。
距离创造出类似「贾维斯」的智能系统,我们还有多远?通过这次更新,谷歌实际上在传递一个明确的信息:语音交互正在成为未来时代的重要入口。
从Gemini Live到Search Live,再到耳机中的实时翻译,谷歌正在将AI从屏幕中解放出来,融入我们的日常聆听体验中。
对于普通用户来说,技术正在消除语言障碍。到2026年,这项功能将通过Gemini API扩展到更多产品中。未来,我们可能不再需要花费数年时间来苦记单词,只需一个耳机就能轻松与世界沟通。而对于企业来说,创建一个具备听说能力、可执行任务并具备情感理解的下一代AI客服的门槛正在大幅降低。
3
除了原生音频模型外,谷歌还推出了一款重磅级的实验产品——Disco。
这是来自Google Labs的一项创新工具,专用于探索和测试未来互联网的概念。它集成了基于谷歌最强大模型之一Gemini 3构建的强大功能——GenTabs。
谷歌坦言,该技术仍处于初期阶段,因此并非所有功能都能无缝运作。
最出色的地方在于,它能够精准识别用户需求。GenTabs可通过分析用户打开的标签页和聊天记录,主动理解复杂任务,并在此基础上创建交互式网络应用程序,协助用户更高效地浏览网络。无需编写任何代码,它即可将用户杂乱无章的标签页和聊天记录转化为一个专属的交互式App。
只需用自然语言与它交谈,它就能自动为你生成工具,并确保所有数据均可追溯,绝不虚构。
目前,macOS版已经开始接受排队申请,尽管仍处于早期实验阶段,但这无疑将「浏览」转变为「创造」。这绝对是一场充满未来感的体验!

