真实音频场景，大模型集体挂科！首个原生语音基准MultiChallenge- 大数跨境

新智元

2026-01-06

编辑：LRST

随着实时语音大模型普及，业界一度认为AI已跨越自然交互最后一道门槛。但现实是：大模型在语音对话中展现的“聪明”，很大程度上源于评测手段的滞后。

此前，Scale AI推出的MultiChallenge基准因对指令保留、推理记忆与自我一致性的严苛考核，被公认为评估大模型逻辑长性的黄金标准。但该基准长期缺失原生音频版本。

近期，Scale AI正式发布Audio MultiChallenge，填补关键空白，并揭示一个行业共识：因缺乏真实音频测试集，厂商普遍采用TTS（Text-to-Speech）将文本基准转为语音进行评测。

这种做法虽使数据“好看”，实则为模型叠加了一层过度美化的滤镜。

撕掉语音外壳：为什么TTS测不出真本事？

TTS生成的语音平滑、规律且高度标准化，彻底过滤了人类语言的关键特征：吞音、重复、临时停顿与即兴改口。

例如：“我想定周一，哦不，是周三的票，等下……还是周二吧。”——这类充满逻辑回溯与口语碎片的真实场景，在TTS中被刻意规避，却在日常对话中无处不在。

模型过去实质是在用文本思维处理“洁净信号”。一旦直面Audio MultiChallenge中47名真实说话者录制的原始音频，其逻辑链条迅速崩塌。

论文明确指出：“模型在合成语音上的得分显著高于真实人声，证实干净音频掩盖了模型在现实世界中的失败模式（Masking real-world failure modes）。”

Audio MultiChallenge延续原版严苛逻辑，并新增核心维度——Voice Editing（语音编辑），从四大方向综合考核模型：指令保留、推理记忆、自我一致性、语音编辑。

根据论文公布的排行榜，全球顶尖模型在音频原生能力上普遍未达及格线：

数据显示：Gemini 3 Pro Preview凭借推理架构维持领先；而GPT-4o Audio Preview在真实人类语音面前鲁棒性大幅低于预期，通过率仅为Gemini的一半左右。

论文通过错误分析，精准识别出模型在音频模态下的三个关键短板：

该维度为本次基准新增。当用户中途改口或逻辑回溯时，多数模型仍机械执行首次听到的指令。平均通过率仅17.99%，暴露模型无法有效处理听觉信息的撤回与覆盖。

模型表现随音频总时长增加而持续恶化。当对话累计音频超8分钟，自我一致性得分骤降至约13%，反映当前语音模型长程上下文状态追踪能力极弱。

当任务需模型识别非语义信号（如环境声、语气情绪）辅助推理时，其表现较纯语义任务下降36.5%。说明模型仍未真正“听懂”声音背后的物理世界，仍视语音为脱水文本。

Audio MultiChallenge证明：语音绝非文本的简单投射，它承载实时状态跟踪、情绪理解及复杂口语特质处理等多重能力。

Scale AI此举敲响警钟——若不能撕掉那层精美的语音外壳，弥合模型对自然语音中“不完美特征”的感知断层，AGI驱动的自由交互，将始终停留在“听懂单词却不懂逻辑”的初级阶段。

参考资料：

https://arxiv.org/pdf/2512.14865

【声明】内容源于网络

新智元

智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响，领航中国新智能时代。

内容 14745

粉丝 0

新智元智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响，领航中国新智能时代。

总阅读96.7k

粉丝0

内容14.7k