新智元报道
新智元报道
【新智元导读】文本领域的大模型“满分选手”,在真实语音对话中却集体“挂科”。Scale AI正式发布首个原生音频多轮对话基准Audio MultiChallenge,直指行业评测盲区:当前主流语音模型依赖TTS合成语音测试,严重高估其真实鲁棒性。实验显示,Gemini 3 Pro在真实人声场景通过率仅过半,GPT-4o Audio表现更远低于预期。
随着实时语音大模型普及,业界一度认为AI已跨越自然交互最后一道门槛。但现实是:大模型在语音对话中展现的“聪明”,很大程度上源于评测手段的滞后。
此前,Scale AI推出的MultiChallenge基准因对指令保留、推理记忆与自我一致性的严苛考核,被公认为评估大模型逻辑长性的黄金标准。但该基准长期缺失原生音频版本。
近期,Scale AI正式发布Audio MultiChallenge,填补关键空白,并揭示一个行业共识:因缺乏真实音频测试集,厂商普遍采用TTS(Text-to-Speech)将文本基准转为语音进行评测。
这种做法虽使数据“好看”,实则为模型叠加了一层过度美化的滤镜。
论文链接:https://arxiv.org/pdf/2512.14865
撕掉语音外壳:为什么TTS测不出真本事?
TTS生成的语音平滑、规律且高度标准化,彻底过滤了人类语言的关键特征:吞音、重复、临时停顿与即兴改口。
例如:“我想定周一,哦不,是周三的票,等下……还是周二吧。”——这类充满逻辑回溯与口语碎片的真实场景,在TTS中被刻意规避,却在日常对话中无处不在。
模型过去实质是在用文本思维处理“洁净信号”。一旦直面Audio MultiChallenge中47名真实说话者录制的原始音频,其逻辑链条迅速崩塌。
论文明确指出:“模型在合成语音上的得分显著高于真实人声,证实干净音频掩盖了模型在现实世界中的失败模式(Masking real-world failure modes)。”
Gemini 3 Pro勉强登顶,GPT-4o意外折戟
Audio MultiChallenge延续原版严苛逻辑,并新增核心维度——Voice Editing(语音编辑),从四大方向综合考核模型:指令保留、推理记忆、自我一致性、语音编辑。
根据论文公布的排行榜,全球顶尖模型在音频原生能力上普遍未达及格线:
数据显示:Gemini 3 Pro Preview凭借推理架构维持领先;而GPT-4o Audio Preview在真实人类语音面前鲁棒性大幅低于预期,通过率仅为Gemini的一半左右。
揭秘三大失败模式:语音逻辑的深层鸿沟
论文通过错误分析,精准识别出模型在音频模态下的三个关键短板:
语音编辑是逻辑黑洞
该维度为本次基准新增。当用户中途改口或逻辑回溯时,多数模型仍机械执行首次听到的指令。平均通过率仅17.99%,暴露模型无法有效处理听觉信息的撤回与覆盖。
时长驱动的崩溃
模型表现随音频总时长增加而持续恶化。当对话累计音频超8分钟,自我一致性得分骤降至约13%,反映当前语音模型长程上下文状态追踪能力极弱。
音频线索的感知缺失
当任务需模型识别非语义信号(如环境声、语气情绪)辅助推理时,其表现较纯语义任务下降36.5%。说明模型仍未真正“听懂”声音背后的物理世界,仍视语音为脱水文本。
结语
Audio MultiChallenge证明:语音绝非文本的简单投射,它承载实时状态跟踪、情绪理解及复杂口语特质处理等多重能力。
Scale AI此举敲响警钟——若不能撕掉那层精美的语音外壳,弥合模型对自然语音中“不完美特征”的感知断层,AGI驱动的自由交互,将始终停留在“听懂单词却不懂逻辑”的初级阶段。


