谷歌发布Gemini 2.5 Flash原生音频模型:实现拟人化实时语音交互
【新智元导读】谷歌发布Gemini 2.5 Flash Native Audio(原生音频模型),首次实现端到端语音理解与生成,支持语调保留的实时跨语言翻译、情感化语音输出及自然连续对话。该技术标志着AI语音交互从“文本中转”迈入“原生拟人”新阶段。
原生音频:跳过文字中转,实现“听—想—说”一体化
传统语音AI依赖“语音→文字→AI处理→文字→语音”多步转换,导致延迟高、语调失真、情感缺失。
Gemini 2.5 Flash Native Audio摒弃文字中介,直接以音频为输入输出单元,实现低延迟、高保真的端到端处理。
该能力已集成至Google AI Studio、Vertex AI及Search Live,使AI语音代理具备实时思考与表达能力,支撑真正意义上的“头脑风暴式”人机对话。
实时语音翻译:打破语言壁垒的同声传译体验
持续监听与双向自动识别
目前正于美国、墨西哥、印度安卓设备通过Google翻译App进行Beta测试。
支持持续环境音频监听,无需手动启停;在双向对话中自动区分说话者语言,实现母语收听+目标语外放的无感切换,无需人工设置发言角色。
风格迁移:翻译“态度”,不止翻译“意思”
通过原生音频建模,精准复刻语调起伏、节奏快慢与音高变化,实现情绪一致性传递——焦急语气对应急促语速,犹豫语气匹配迟疑停顿。
支持70多种语言、2000多个语言对;兼容多语混输与强噪声环境,经优化可在嘈杂街头清晰辨识语音。
开发者价值:构建可信赖语音AI服务的三大升级
函数调用更精准
在ComplexFuncBench Audio评测中达71.5%准确率,显著优于前代及竞品;能自主判断数据调用时机,并将结果自然融入语音回复,保障多步骤任务执行的连贯性。
指令遵循率提升至90%
开发者对语气、格式、响应长度等定制化指令的执行成功率由84%升至90%,大幅提升企业级AI客服的可控性与专业度。
多轮对话上下文稳定性增强
强化对话历史检索与记忆能力,结合原生音频低延迟特性,使长周期交互逻辑清晰、响应自然,接近真人沟通体验。
延伸探索:GenTabs——基于Gemini 3的智能网络应用生成器
谷歌实验室推出的实验性工具Disco内置GenTabs,可解析用户当前浏览器标签页与聊天记录,主动理解复杂任务意图,并自动生成交互式Web应用,全程无需编码。
适用于周餐规划、科普教学等场景,所有生成内容基于真实数据源,拒绝虚构。macOS版已开放早期排队。
结语:语音正成为下一代AI入口
Gemini 2.5 Flash Native Audio已在Vertex AI全面上线,Google AI Studio同步开放试用。
技术演进正加速消解语言障碍与人机隔阂——当AI第一次用你的语气说出外语,便是“未来已来”的具象时刻。

