大数跨境
0
0

完爆ChatGPT!谷歌这招太狠:连你的「阴阳怪气」都能神还原

完爆ChatGPT!谷歌这招太狠:连你的「阴阳怪气」都能神还原 新智元
2025-12-14
2
导读:Gemini把同声传译塞进Google Translate

谷歌发布Gemini 2.5 Flash原生音频模型:实现拟人化实时语音交互

【新智元导读】谷歌发布Gemini 2.5 Flash Native Audio(原生音频模型),首次实现端到端语音理解与生成,支持语调保留的实时跨语言翻译、情感化语音输出及自然连续对话。该技术标志着AI语音交互从“文本中转”迈入“原生拟人”新阶段。

原生音频:跳过文字中转,实现“听—想—说”一体化

传统语音AI依赖“语音→文字→AI处理→文字→语音”多步转换,导致延迟高、语调失真、情感缺失。

Gemini 2.5 Flash Native Audio摒弃文字中介,直接以音频为输入输出单元,实现低延迟、高保真的端到端处理。

该能力已集成至Google AI Studio、Vertex AI及Search Live,使AI语音代理具备实时思考与表达能力,支撑真正意义上的“头脑风暴式”人机对话。

实时语音翻译:打破语言壁垒的同声传译体验

持续监听与双向自动识别

目前正于美国、墨西哥、印度安卓设备通过Google翻译App进行Beta测试。

支持持续环境音频监听,无需手动启停;在双向对话中自动区分说话者语言,实现母语收听+目标语外放的无感切换,无需人工设置发言角色。

风格迁移:翻译“态度”,不止翻译“意思”

通过原生音频建模,精准复刻语调起伏、节奏快慢与音高变化,实现情绪一致性传递——焦急语气对应急促语速,犹豫语气匹配迟疑停顿。

支持70多种语言、2000多个语言对;兼容多语混输与强噪声环境,经优化可在嘈杂街头清晰辨识语音。

开发者价值:构建可信赖语音AI服务的三大升级

函数调用更精准

在ComplexFuncBench Audio评测中达71.5%准确率,显著优于前代及竞品;能自主判断数据调用时机,并将结果自然融入语音回复,保障多步骤任务执行的连贯性。

指令遵循率提升至90%

开发者对语气、格式、响应长度等定制化指令的执行成功率由84%升至90%,大幅提升企业级AI客服的可控性与专业度。

多轮对话上下文稳定性增强

强化对话历史检索与记忆能力,结合原生音频低延迟特性,使长周期交互逻辑清晰、响应自然,接近真人沟通体验。

延伸探索:GenTabs——基于Gemini 3的智能网络应用生成器

谷歌实验室推出的实验性工具Disco内置GenTabs,可解析用户当前浏览器标签页与聊天记录,主动理解复杂任务意图,并自动生成交互式Web应用,全程无需编码。

适用于周餐规划、科普教学等场景,所有生成内容基于真实数据源,拒绝虚构。macOS版已开放早期排队。

结语:语音正成为下一代AI入口

Gemini 2.5 Flash Native Audio已在Vertex AI全面上线,Google AI Studio同步开放试用。

技术演进正加速消解语言障碍与人机隔阂——当AI第一次用你的语气说出外语,便是“未来已来”的具象时刻。

【声明】内容源于网络
0
0
新智元
智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。
内容 14604
粉丝 0
新智元 智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。
总阅读75.8k
粉丝0
内容14.6k