更流畅对话、更多语言支持！Nova 2 Sonic让构建语音应用更轻松- 大数跨境

亚马逊云开发者

2026-01-06

导读：具备行业前沿的对话质量、定价优势以及顶尖的语音理解能力

Amazon Nova 2 Sonic正式发布：更自然、更智能的语音交互基础模型

十余年来，亚马逊云科技持续深耕语音技术。2025年4月，其推出第一代Amazon Nova Sonic，聚焦“声学语境保留”，实现语音回复在内容与表达方式上的双重匹配。在re:Invent 2025大会上，亚马逊云科技正式发布Amazon Nova 2 Sonic——新一代语音到语音（Speech-to-Speech）基础模型，在智能水平、自主交互能力、语言覆盖与功能实用性上全面升级，带来更符合人类直觉、更自然流畅的语音交互体验。

高表现力语音与自然对话节奏

Amazon Nova 2 Sonic生成的语音具备高度表现力，在所有支持语言中均提供原生、富有感染力的男女双音色。对话中可自然实现轮流发言；即使用户中途插话，模型也能无缝衔接、精准响应。在人类偏好性测评中，其整体聆听体验持续优于主流竞品模型。

多维性能全面提升

Amazon Nova 2 Sonic在多项关键评估基准中表现领先：

在Big Bench Audio（基于音频输入的推理能力评测）中，性能超越主流对话式AI模型；
BFCL基准测试显示其函数调用准确率与稳定性显著提升；
ComplexFuncBench验证其在多步骤、强约束任务处理中的强大能力；
经Common Voice数据集验证，自动语音识别（ASR）准确率提高；结合IFEval指令遵循评估，证实其对结构化指令执行更加精准。

语音理解能力升级

底层语音识别能力显著增强：可更精准处理字母数字混合输入、短指令及8kHz电话语音；对不同口音与背景噪声具备更强鲁棒性，保障实际部署的稳定性与可靠性。

多语种语音支持全球覆盖

除原有英语、法语、意大利语、德语、西班牙语外，Amazon Nova 2 Sonic新增支持葡萄牙语和印地语。

更关键的是，模型支持「多语言语音角色」——单个语音角色（如Tiffany）可在同一对话中自由切换全部支持语言，并具备专业级语码转换（Code-Switching）能力，自然处理混合语言语句。例如，用户从英语切换至西班牙语提问，系统可立即以目标语言回应。

开发者无需为每种语言单独配置模型，即可构建真正全球化服务。典型场景如客户支持应用，可无缝承接开场英语、中途转为西班牙语的连续对话，全程保持语音一致性与对话流畅度。

可配置的轮流发言机制

通过三档灵敏度（高/中/低）的语音活动检测（VAD）设置，开发者可根据应用场景灵活优化对话节奏：高灵敏度实现毫秒级响应；低灵敏度则为用户留出更充分表达空间。该能力尤其适用于教育类应用或需适配多样化沟通偏好的AI服务。

无缝跨模态交互

支持文本与语音在同一会话中自由切换输入，保障上下文连贯性——用户可用文字发起对话并接收语音回复，随后切回语音输入，全程不中断。

该设计更贴合真实沟通习惯。例如：快速口述问题 + 文字补充复杂地址或技术参数；或通过文本指令触发模型主动播报欢迎语，实现“开场式交互”。亦可结合按键音元数据，驱动IVR系统完成外呼预订、语音留言等任务。

先进的多Agents协作能力

新增异步工具调用功能，显著提升复杂多步骤任务处理效率。模型可在后台调用外部工具的同时，实时响应用户新输入，避免对话暂停。

典型流程示例：用户连续询问“天气如何？”与“我任务清单下一项是什么？”，Amazon Nova 2 Sonic同步处理请求，优先回应后者；待天气服务返回结果后，再补充完整天气信息——如同人类自然应对多个并行话题，兼顾效率与交互连续性。

强化电话集成与平台兼容性

深度适配主流通信与媒体平台，包括Amazon Connect、Vonage、Twilio、Audiocodes，以及LiveKit、Pipecat等。全面解决电话端关键挑战：音频编解码器优化、会话生命周期管理、双向事件处理、声学环境适配等。

开发者无需深入底层通信协议，即可将基于Amazon Nova 2 Sonic的应用快速接入现有呼叫中心，或构建全新电话AI服务。

快速上手与集成说明

Amazon Nova 2 Sonic已通过Amazon Bedrock（海外区域）开放调用，模型ID为amazon.nova-2-sonic-v1:0。若已部署初代Nova Sonic，仅需更新模型ID即可完成升级，无需修改其他配置。

沿用前代双向流式API，现有集成代码与事件处理逻辑完全兼容。跨模态输入、可配置轮流发言等新功能，可通过扩展参数与事件接口按需启用。

多种编程语言的代码示例详见《Amazon Nova Sonic语音转语音模型示例》：
https://github.com/aws-samples/amazon-nova-samples/tree/main/speech-to-speech

部署与合规保障

Amazon Nova 2 Sonic现已在以下亚马逊云科技区域上线：美国东部（北弗吉尼亚）、美国西部（俄勒冈）、亚太地区（东京）。区域支持详情请参阅亚马逊云科技区域功能页面。

延续前代卓越的性价比与低延迟特性，具体定价见Amazon Bedrock定价页。

模型具备与Amazon Bedrock统一的安全与合规能力：传输加密、静态数据加密、VPC端点、精细化IAM权限控制；内置内容审核机制，确保输出合规，支撑负责任AI落地。

更多技术细节与实施指导，请参考《Amazon Nova用户指南》中Amazon Nova Sonic章节：
https://docs.aws.amazon.com/nova/latest/userguide/speech.html

Danilo Poccia
亚马逊云科技首席布道师（EMEA），专注Serverless、事件驱动、机器学习与边缘计算的技术及商业影响，著有《Amazon Lambda in Action》。

【声明】内容源于网络

亚马逊云开发者

各类跨境出海行业相关资讯

内容 1670

粉丝 0

亚马逊云开发者各类跨境出海行业相关资讯

总阅读12.7k

粉丝0

内容1.7k