大数跨境
0
0

真实音频场景,大模型集体挂科!首个原生语音基准MultiChallenge

真实音频场景,大模型集体挂科!首个原生语音基准MultiChallenge 新智元
2026-01-06
11

新智元报道

编辑:LRST
【新智元导读】文本领域的大模型“满分选手”,在真实语音对话中却集体“挂科”。Scale AI正式发布首个原生音频多轮对话基准Audio MultiChallenge,直指行业评测盲区:当前主流语音模型依赖TTS合成语音测试,严重高估其真实鲁棒性。实验显示,Gemini 3 Pro在真实人声场景通过率仅过半,GPT-4o Audio表现更远低于预期。

随着实时语音大模型普及,业界一度认为AI已跨越自然交互最后一道门槛。但现实是:大模型在语音对话中展现的“聪明”,很大程度上源于评测手段的滞后。

此前,Scale AI推出的MultiChallenge基准因对指令保留、推理记忆与自我一致性的严苛考核,被公认为评估大模型逻辑长性的黄金标准。但该基准长期缺失原生音频版本。

近期,Scale AI正式发布Audio MultiChallenge,填补关键空白,并揭示一个行业共识:因缺乏真实音频测试集,厂商普遍采用TTS(Text-to-Speech)将文本基准转为语音进行评测。

这种做法虽使数据“好看”,实则为模型叠加了一层过度美化的滤镜。

论文链接:https://arxiv.org/pdf/2512.14865

撕掉语音外壳:为什么TTS测不出真本事?

TTS生成的语音平滑、规律且高度标准化,彻底过滤了人类语言的关键特征:吞音、重复、临时停顿与即兴改口。

例如:“我想定周一,哦不,是周三的票,等下……还是周二吧。”——这类充满逻辑回溯与口语碎片的真实场景,在TTS中被刻意规避,却在日常对话中无处不在。

模型过去实质是在用文本思维处理“洁净信号”。一旦直面Audio MultiChallenge中47名真实说话者录制的原始音频,其逻辑链条迅速崩塌。

论文明确指出:“模型在合成语音上的得分显著高于真实人声,证实干净音频掩盖了模型在现实世界中的失败模式(Masking real-world failure modes)。”

Gemini 3 Pro勉强登顶,GPT-4o意外折戟

Audio MultiChallenge延续原版严苛逻辑,并新增核心维度——Voice Editing(语音编辑),从四大方向综合考核模型:指令保留、推理记忆、自我一致性、语音编辑。

根据论文公布的排行榜,全球顶尖模型在音频原生能力上普遍未达及格线:

数据显示:Gemini 3 Pro Preview凭借推理架构维持领先;而GPT-4o Audio Preview在真实人类语音面前鲁棒性大幅低于预期,通过率仅为Gemini的一半左右。

揭秘三大失败模式:语音逻辑的深层鸿沟

论文通过错误分析,精准识别出模型在音频模态下的三个关键短板:

语音编辑是逻辑黑洞

该维度为本次基准新增。当用户中途改口或逻辑回溯时,多数模型仍机械执行首次听到的指令。平均通过率仅17.99%,暴露模型无法有效处理听觉信息的撤回与覆盖。

时长驱动的崩溃

模型表现随音频总时长增加而持续恶化。当对话累计音频超8分钟,自我一致性得分骤降至约13%,反映当前语音模型长程上下文状态追踪能力极弱。

音频线索的感知缺失

当任务需模型识别非语义信号(如环境声、语气情绪)辅助推理时,其表现较纯语义任务下降36.5%。说明模型仍未真正“听懂”声音背后的物理世界,仍视语音为脱水文本。

结语

Audio MultiChallenge证明:语音绝非文本的简单投射,它承载实时状态跟踪、情绪理解及复杂口语特质处理等多重能力。

Scale AI此举敲响警钟——若不能撕掉那层精美的语音外壳,弥合模型对自然语音中“不完美特征”的感知断层,AGI驱动的自由交互,将始终停留在“听懂单词却不懂逻辑”的初级阶段。

参考资料:
https://arxiv.org/pdf/2512.14865

【声明】内容源于网络
0
0
新智元
智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。
内容 14745
粉丝 0
新智元 智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。
总阅读96.7k
粉丝0
内容14.7k