Amazon Nova 2 Sonic正式发布:更自然、更智能的语音交互基础模型
十余年来,亚马逊云科技持续深耕语音技术。2025年4月,其推出第一代Amazon Nova Sonic,聚焦“声学语境保留”,实现语音回复在内容与表达方式上的双重匹配。在re:Invent 2025大会上,亚马逊云科技正式发布Amazon Nova 2 Sonic——新一代语音到语音(Speech-to-Speech)基础模型,在智能水平、自主交互能力、语言覆盖与功能实用性上全面升级,带来更符合人类直觉、更自然流畅的语音交互体验。
高表现力语音与自然对话节奏
Amazon Nova 2 Sonic生成的语音具备高度表现力,在所有支持语言中均提供原生、富有感染力的男女双音色。对话中可自然实现轮流发言;即使用户中途插话,模型也能无缝衔接、精准响应。在人类偏好性测评中,其整体聆听体验持续优于主流竞品模型。

多维性能全面提升
Amazon Nova 2 Sonic在多项关键评估基准中表现领先:
- 在Big Bench Audio(基于音频输入的推理能力评测)中,性能超越主流对话式AI模型;
- BFCL基准测试显示其函数调用准确率与稳定性显著提升;
- ComplexFuncBench验证其在多步骤、强约束任务处理中的强大能力;
- 经Common Voice数据集验证,自动语音识别(ASR)准确率提高;结合IFEval指令遵循评估,证实其对结构化指令执行更加精准。

语音理解能力升级
底层语音识别能力显著增强:可更精准处理字母数字混合输入、短指令及8kHz电话语音;对不同口音与背景噪声具备更强鲁棒性,保障实际部署的稳定性与可靠性。
多语种语音支持全球覆盖
除原有英语、法语、意大利语、德语、西班牙语外,Amazon Nova 2 Sonic新增支持葡萄牙语和印地语。
更关键的是,模型支持「多语言语音角色」——单个语音角色(如Tiffany)可在同一对话中自由切换全部支持语言,并具备专业级语码转换(Code-Switching)能力,自然处理混合语言语句。例如,用户从英语切换至西班牙语提问,系统可立即以目标语言回应。
开发者无需为每种语言单独配置模型,即可构建真正全球化服务。典型场景如客户支持应用,可无缝承接开场英语、中途转为西班牙语的连续对话,全程保持语音一致性与对话流畅度。
可配置的轮流发言机制
通过三档灵敏度(高/中/低)的语音活动检测(VAD)设置,开发者可根据应用场景灵活优化对话节奏:高灵敏度实现毫秒级响应;低灵敏度则为用户留出更充分表达空间。该能力尤其适用于教育类应用或需适配多样化沟通偏好的AI服务。
无缝跨模态交互
支持文本与语音在同一会话中自由切换输入,保障上下文连贯性——用户可用文字发起对话并接收语音回复,随后切回语音输入,全程不中断。
该设计更贴合真实沟通习惯。例如:快速口述问题 + 文字补充复杂地址或技术参数;或通过文本指令触发模型主动播报欢迎语,实现“开场式交互”。亦可结合按键音元数据,驱动IVR系统完成外呼预订、语音留言等任务。
先进的多Agents协作能力
新增异步工具调用功能,显著提升复杂多步骤任务处理效率。模型可在后台调用外部工具的同时,实时响应用户新输入,避免对话暂停。
典型流程示例:用户连续询问“天气如何?”与“我任务清单下一项是什么?”,Amazon Nova 2 Sonic同步处理请求,优先回应后者;待天气服务返回结果后,再补充完整天气信息——如同人类自然应对多个并行话题,兼顾效率与交互连续性。
强化电话集成与平台兼容性
深度适配主流通信与媒体平台,包括Amazon Connect、Vonage、Twilio、Audiocodes,以及LiveKit、Pipecat等。全面解决电话端关键挑战:音频编解码器优化、会话生命周期管理、双向事件处理、声学环境适配等。
开发者无需深入底层通信协议,即可将基于Amazon Nova 2 Sonic的应用快速接入现有呼叫中心,或构建全新电话AI服务。
快速上手与集成说明
Amazon Nova 2 Sonic已通过Amazon Bedrock(海外区域)开放调用,模型ID为amazon.nova-2-sonic-v1:0。若已部署初代Nova Sonic,仅需更新模型ID即可完成升级,无需修改其他配置。
沿用前代双向流式API,现有集成代码与事件处理逻辑完全兼容。跨模态输入、可配置轮流发言等新功能,可通过扩展参数与事件接口按需启用。
多种编程语言的代码示例详见《Amazon Nova Sonic语音转语音模型示例》:
https://github.com/aws-samples/amazon-nova-samples/tree/main/speech-to-speech
部署与合规保障
Amazon Nova 2 Sonic现已在以下亚马逊云科技区域上线:美国东部(北弗吉尼亚)、美国西部(俄勒冈)、亚太地区(东京)。区域支持详情请参阅亚马逊云科技区域功能页面。
延续前代卓越的性价比与低延迟特性,具体定价见Amazon Bedrock定价页。
模型具备与Amazon Bedrock统一的安全与合规能力:传输加密、静态数据加密、VPC端点、精细化IAM权限控制;内置内容审核机制,确保输出合规,支撑负责任AI落地。
更多技术细节与实施指导,请参考《Amazon Nova用户指南》中Amazon Nova Sonic章节:
https://docs.aws.amazon.com/nova/latest/userguide/speech.html

Danilo Poccia
亚马逊云科技首席布道师(EMEA),专注Serverless、事件驱动、机器学习与边缘计算的技术及商业影响,著有《Amazon Lambda in Action》。

