

完爆ChatGPT！谷歌这招太狠：连你的「阴阳怪气」都能神还原

新智元

2025-12-14

导读：Gemini把同声传译塞进Google Translate

谷歌发布Gemini 2.5 Flash原生音频模型：实现拟人化实时语音交互

【新智元导读】谷歌发布Gemini 2.5 Flash Native Audio（原生音频模型），首次实现端到端语音理解与生成，支持语调保留的实时跨语言翻译、情感化语音输出及自然连续对话。该技术标志着AI语音交互从“文本中转”迈入“原生拟人”新阶段。

传统语音AI依赖“语音→文字→AI处理→文字→语音”多步转换，导致延迟高、语调失真、情感缺失。

Gemini 2.5 Flash Native Audio摒弃文字中介，直接以音频为输入输出单元，实现低延迟、高保真的端到端处理。

该能力已集成至Google AI Studio、Vertex AI及Search Live，使AI语音代理具备实时思考与表达能力，支撑真正意义上的“头脑风暴式”人机对话。

目前正于美国、墨西哥、印度安卓设备通过Google翻译App进行Beta测试。

支持持续环境音频监听，无需手动启停；在双向对话中自动区分说话者语言，实现母语收听+目标语外放的无感切换，无需人工设置发言角色。

通过原生音频建模，精准复刻语调起伏、节奏快慢与音高变化，实现情绪一致性传递——焦急语气对应急促语速，犹豫语气匹配迟疑停顿。

支持70多种语言、2000多个语言对；兼容多语混输与强噪声环境，经优化可在嘈杂街头清晰辨识语音。

在ComplexFuncBench Audio评测中达71.5%准确率，显著优于前代及竞品；能自主判断数据调用时机，并将结果自然融入语音回复，保障多步骤任务执行的连贯性。

开发者对语气、格式、响应长度等定制化指令的执行成功率由84%升至90%，大幅提升企业级AI客服的可控性与专业度。

强化对话历史检索与记忆能力，结合原生音频低延迟特性，使长周期交互逻辑清晰、响应自然，接近真人沟通体验。

谷歌实验室推出的实验性工具Disco内置GenTabs，可解析用户当前浏览器标签页与聊天记录，主动理解复杂任务意图，并自动生成交互式Web应用，全程无需编码。

适用于周餐规划、科普教学等场景，所有生成内容基于真实数据源，拒绝虚构。macOS版已开放早期排队。

Gemini 2.5 Flash Native Audio已在Vertex AI全面上线，Google AI Studio同步开放试用。

技术演进正加速消解语言障碍与人机隔阂——当AI第一次用你的语气说出外语，便是“未来已来”的具象时刻。

【声明】内容源于网络

新智元

智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响，领航中国新智能时代。

内容 14604

粉丝 0

新智元智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响，领航中国新智能时代。

总阅读75.8k

粉丝0

内容14.6k