

刚刚，谷歌把全世界的耳机变成了「同声传译器」！

AI信息Gap

2025-12-16

导读：谷歌继续发力。这一次，是语音。

谷歌推实时语音同传功能，支持70+语言

谷歌最新版 Google Translate App 推出 Live translate 功能：连接任意耳机后，对准说话者即可实现实时语音翻译。

该功能无需专用硬件，兼容主流耳机；翻译语音保留原说话者语调、节奏与情绪起伏，甚至可辨识不同说话人。适用于出境旅游、外语影视、海外餐饮等多场景。

目前为 Beta 版本，仅面向安卓平台，在美国、墨西哥及印度地区开放测试（依据谷歌账号所属区域判定）；iOS 及更多国家/地区预计于2026年上线。

Gemini 2.5 Flash Native Audio：专为实时语音优化的新模型

支撑上述功能的核心是谷歌全新发布的语音大模型：Gemini 2.5 Flash Native Audio，专为原生音频输入输出设计[2]。

在 ComplexFuncBench Audio 基准测试中，其准确率达 71.5%，高于 OpenAI gpt-realtime 的 66.5%[2]。该能力体现在真实对话中——模型能更精准判断信息调用时机、内容及自然融入上下文，减少中断感。

指令遵循率从 84% 提升至 90%，多轮对话质量由 62% 显著提升至 83%，记忆与连贯性大幅增强[2]。

Shopify Sidekick：用户“忘记自己在和 AI 对话”

全球头部电商建站平台 Shopify 已将该模型集成至其 AI 助手 Sidekick 中[3]。

「用户在使用 Sidekick 一分钟内就忘记自己在和 AI 说话，有些人在长对话结束后甚至会对机器人说谢谢。」——Shopify 产品副总裁 David Wurtz[3]

这种拟人化交互体验，标志着语音 AI 正从技术指标领先迈向真实用户体验突破[3]。

商业化落地案例：贷款服务与智能前台已规模化应用

美国房贷机构 United Wholesale Mortgage 将该模型嵌入 AI 助手 Mia，目前已协助完成超 14,000 笔贷款业务[4]。

Newo.ai 则用于 AI 前台客服系统，具备嘈杂环境主说话人识别、对话中语言无缝切换等能力，反馈为“非常自然和富有情感”[4]。低延迟、高情商语音 AI 已成为可复用的生产力工具[4]。

开发者现已可免费接入

开发者可通过谷歌 AI Studio 免费调用该模型：进入左侧菜单 Playground → 选择 Live → 点击标有「New」的 Gemini 2.5 Flash Native Audio 即可开始测试[5]。

API 预览版已开放，模型名称为 gemini-2.5-flash-native-audio-preview-12-2025。同期更新的 Gemini 2.5 Flash 与 Gemini 2.5 Pro TTS 模型亦可选用，但实时语音交互推荐优先采用本模型[5]。适用场景包括口语训练、语音助手开发及智能客服系统搭建[5]。

结语

当用户不再意识到自己正在与 AI 交互，甚至主动致谢，语音 AI 的实用价值与人性化水平已达新高度[6]。

【声明】内容源于网络

AI信息Gap

各类跨境出海行业相关资讯

内容 666

粉丝 0

AI信息Gap 各类跨境出海行业相关资讯

总阅读25.1k

粉丝0

内容666