Gemini 3.1 Flash Live：Google迄今为止最自然的AI语音模型- 大数跨境

Gemini 3.1 Flash Live：Google迄今为止最自然的AI语音模型

声学楼论坛

2026-03-30

Google发布了Gemini 3.1 Flash Live，这是其目前最好的语音和音频AI模型。 它提供更快的响应速度、更自然的对话体验，以及可供开发者配置的思考级别。Google表示，该模型在检测音调和情绪方面表现更出色，在嘈杂环境中也更加可靠。该模型现已成为Gemini应用中实时模式的驱动力。

据Artificial Analysis的数据，该模型在"高"思考级别下在Big Bench Audio基准测试中得分95.9%，仅次于Step-Audio R1.1 Realtime（97.0%），响应时间为2.98秒。在"最低"思考级别下，质量降至70.5%，但响应时间缩短至0.96秒。

该模型通过Gemini Live API、Google AI Studio、Gemini Live以及Search Live在200多个国家可用。定价与其前代产品Gemini 2.5相同，音频输入每小时0.35美元，音频输出每小时1.40美元，使其成为市面上最便宜的音频AI模型之一。性能略优的Step Audio模型在输入价格上更便宜，但在输出价格上更高。

END

内容来源：VoiceAgent_AI

微信转载文章出于非商业性的教育和科研目的，并不意味着声学楼支持其观点或证实其内容的真实性。版权归原作者所有，如转载稿涉及版权等问题，请立即联系我们！

【声明】内容源于网络

声学楼论坛

“声学楼”创办于2005年，致力于促进声学领域技术交流与应用。历经多年发展，声学楼已从一个单纯声学工程师交流平台，成长为音频企业上下游多方参与音频技术专业论坛之一，每年还通过举办技术研讨会、年会等活动，搭建起与会的行业供需双方沟通的桥梁。

内容 0

粉丝 0

声学楼论坛 “声学楼”创办于2005年，致力于促进声学领域技术交流与应用。历经多年发展，声学楼已从一个单纯声学工程师交流平台，成长为音频企业上下游多方参与音频技术专业论坛之一，每年还通过举办技术研讨会、年会等活动，搭建起与会的行业供需双方沟通的桥梁。

总阅读0

粉丝0

内容0