大数跨境
0
0

刚刚,谷歌把全世界的耳机变成了「同声传译器」!

刚刚,谷歌把全世界的耳机变成了「同声传译器」! AI信息Gap
2025-12-16
11
导读:谷歌继续发力。这一次,是语音。

谷歌推实时语音同传功能,支持70+语言

谷歌最新版 Google Translate App 推出 Live translate 功能:连接任意耳机后,对准说话者即可实现实时语音翻译。

该功能无需专用硬件,兼容主流耳机;翻译语音保留原说话者语调、节奏与情绪起伏,甚至可辨识不同说话人。适用于出境旅游、外语影视、海外餐饮等多场景。

目前为 Beta 版本,仅面向安卓平台,在美国、墨西哥及印度地区开放测试(依据谷歌账号所属区域判定);iOS 及更多国家/地区预计于2026年上线。

Gemini 2.5 Flash Native Audio:专为实时语音优化的新模型

支撑上述功能的核心是谷歌全新发布的语音大模型:Gemini 2.5 Flash Native Audio,专为原生音频输入输出设计[2]

在 ComplexFuncBench Audio 基准测试中,其准确率达 71.5%,高于 OpenAI gpt-realtime 的 66.5%[2]。该能力体现在真实对话中——模型能更精准判断信息调用时机、内容及自然融入上下文,减少中断感。

指令遵循率从 84% 提升至 90%,多轮对话质量由 62% 显著提升至 83%,记忆与连贯性大幅增强[2]

Shopify Sidekick:用户“忘记自己在和 AI 对话”

全球头部电商建站平台 Shopify 已将该模型集成至其 AI 助手 Sidekick 中[3]

「用户在使用 Sidekick 一分钟内就忘记自己在和 AI 说话,有些人在长对话结束后甚至会对机器人说谢谢。」——Shopify 产品副总裁 David Wurtz[3]

这种拟人化交互体验,标志着语音 AI 正从技术指标领先迈向真实用户体验突破[3]

商业化落地案例:贷款服务与智能前台已规模化应用

美国房贷机构 United Wholesale Mortgage 将该模型嵌入 AI 助手 Mia,目前已协助完成超 14,000 笔贷款业务[4]

Newo.ai 则用于 AI 前台客服系统,具备嘈杂环境主说话人识别、对话中语言无缝切换等能力,反馈为“非常自然和富有情感”[4]。低延迟、高情商语音 AI 已成为可复用的生产力工具[4]

开发者现已可免费接入

开发者可通过谷歌 AI Studio 免费调用该模型:进入左侧菜单 Playground → 选择 Live → 点击标有「New」的 Gemini 2.5 Flash Native Audio 即可开始测试[5]

API 预览版已开放,模型名称为 gemini-2.5-flash-native-audio-preview-12-2025。同期更新的 Gemini 2.5 Flash 与 Gemini 2.5 Pro TTS 模型亦可选用,但实时语音交互推荐优先采用本模型[5]。适用场景包括口语训练、语音助手开发及智能客服系统搭建[5]

结语

当用户不再意识到自己正在与 AI 交互,甚至主动致谢,语音 AI 的实用价值与人性化水平已达新高度[6]

【声明】内容源于网络
0
0
AI信息Gap
各类跨境出海行业相关资讯
内容 666
粉丝 0
AI信息Gap 各类跨境出海行业相关资讯
总阅读25.1k
粉丝0
内容666