想象一下,你给 AI 播放一段医生做手术的视频,然后问它:“如果此时电刀功率调高 20% 会发生什么?”
这要求 AI 不仅看懂画面,还要具备医学知识、因果推理和空间想象能力,更是评估 AI 是否具备“世界模型”(理解现实世界动态与因果的能力)的关键。然而即使是 GPT-4o 面对这类问题也仅能答对 62.54%!
现有模型在图像和文本领域风光无限,然而一到视频推理就频频翻车。因为视频才是现实世界的“终极模拟器”——它融合时空、因果、多模态信息,而现有评测基准却停留在“识别物体”的初级阶段。
在人工智能迈向通用智能的道路上,一个核心问题始终萦绕:AI 模型究竟能多好地理解真实世界的动态?AI 看懂视频不仅只是“画面里有只猫在跑”,真正的挑战是:“如果猫没跳上桌子,花瓶会摔碎吗?”“接下来猫会扑向哪个玩具?”
为了解决这个问题,来自 UC Santa Cruz、UC Santa Barbara 和微软的研究团队带来了全新答案:MMWorld,一个专为评估多模态大模型“世界建模”能力而设计的基准!它不像普通基准只考 “看见什么”,而是追问“懂得什么”,首次以“多学科 + 多维度推理”双引擎,全方位丈量多模态大模型(MLLMs)在推理和解释现实世界方面的能力。
论文地址:
https://arxiv.org/abs/2406.08407
该基准测试已经与 AGI-Eval 大模型评测社区达成合作,可至社区查看 MMWorld Bench 的所有子集!
MMWorld 榜单地址:
https://agi-eval.cn/evaluation/detail?id=66
微信小程序:AGI-Eval模型评测
01. 为什么需要 MMWorld Bench
人工智能正从 “感知世界” 迈向 “理解世界”。但一个核心难题始终悬而未决:模型如何证明自己真正掌握了现实世界的动态因果与跨领域规律?当前多模态大模型对真实世界的理解,可能比我们想象的更肤浅。现有的视频理解基准要么困于 “看图片答问题” 的简单模式(如 ActivityNet-QA),要么局限于单一领域(如 Sports-QA),难以触及世界模型的核心能力 ——根据动态信息推理潜在机制、预测未来发展、反事实思考替代结果。
当 GPT-4o、Gemini 等模型展现出惊人的跨模态推理能力时,我们亟需一个更贴近真实世界复杂性的评估体系。现有视频理解基准大多局限于单一领域或基础感知任务,传统视频理解任务(如动作识别、问答)仅停留在感知层面,止步于描述画面内容,而 MMWorld 首次构建真实世界动态推演考场,从碎片化感知迈向了系统性理解。
多学科覆盖:横跨艺术与体育、商业、科学、健康医学等 7 大领域,覆盖从“机器人装配误差分析”到“股票K线趋势预测”等 69 个子领域。每个视频都蕴含专业领域知识,共 1910 个高质量视频(平均时长 102 秒,匹配人类短时记忆容量) 。
多维度推理挑战:MMWorld 的 6627 个问答对,按认知难度构建金字塔。超越“看” 与“听”,深入评估解释现象、反事实思考、未来预测、领域专业知识、时间理解等高阶能力,要求模型具备人类级别的解释、反事实思考、未来预测能力。
例如:
在健康医学领域的一个视频中,MMWorld 会同时提问:
解释现象:“为什么医生要采用这种给药方式?”“为何要采用皮内缝合而非普通缝合?”
反事实思考:“如果跳过消毒步骤会有什么后果?”“如果使用可吸收线会有什么后果?”
未来预测:“患者接下来可能出现什么反应?”
专业知识:“该疗法的生物学机制是什么?”
双数据集设计:人工标注数据集与合成数据集结合,兼顾全面评估与模态分离分析。自动合成数据:通过音/视单模态生成精准测试模型感知能力;
人工精标:涵盖 6 种核心能力(解释现象/反事实推理/未来预测/领域专家/时间理解/归因分析),覆盖认知全链条,每个子学科至少包含 20 个视频,确保训练集无偏。
跨模态挑战:需同时理解视频中的视觉动态、音频线索和隐含的时间因果关系。通过合成数据集单独评估视觉 / 音频感知能力,发现 Gemini Pro 视觉处理最强,Video-Chat 音频理解更优。
02.MMWorld Bench的测试结果
2.1 开源、闭源存在差异
研究团队对 14 个顶级模型进行严苛测试,包括 4 个专有模型(GPT-4o、Claude 3.5、GPT-4V、Gemini)和 10 个开源模型,结果如下图所示:
闭源模型的“虚假繁荣”
最强模型 GPT-4o 仅达到 62.54% 的整体准确率,勉强及格。其在不同学科领域差异巨大:在商业领域(91.14%)和健康医学(83.33%)表现突出,但在具身任务(62.94%)和艺术体育(47.87%)仍显吃力,距人类水平仍有巨大鸿沟。其余测试闭源模型的整体准确率均未达到及格水平,Claude-3.5-Sonnet、GPT-4V 分别以 54.54%、52.30% 紧随其后。Gemini Pro 的总体得分仅为 51.02%。
开源模型的“逆袭”与“短板”
开源模型 Video-LLaVA-7B 平均准确率为 44.60% ,但在家具组装一类的具身任务(准确率 63.17%)中反超 GPT-4o(62.94%),证明了特定场景优化的潜力。 部分模型表现令人咋舌,4 个专为视频训练的模型表现低于随机猜测(26.31%),Otter-7B 平均准确率仅 14.99%、LWM-1M-JAX 仅 15.39%。
2.2 关于 MMWorld 的多维度推理研究
△不同多模态大模型在多方面推理上的结果
如上图所示,GPT - 4V 在未来预测、领域专业知识和归因理解方面表现最为出色。GPT - 4V 和 Gemini Pro 这样的闭源模型在反事实思维方面表现相近,且优于其他所有模型。然而,在时间理解方面,Video - LLaVA 表现最佳。这可能是由于它在大量视频-语言数据上进行了广泛训练,从而增强了其时空推理能力。Video - LLaVA 在解释任务上的表现与 GPT - 4V 和 Gemini Pro 相当。
2.3 模型与人类表现呈现“错位优势”
如上图所示,人类感知的难度级别与多模态大模型(MLLMs)的性能之间存在一定相关性。多模态大模型通常呈现出一种趋势,即随着难度级别增加,准确率会下降,这与人类的表现模式相符。然而,这种相关性并不完美,这表明虽然模型和人类在理解问题难度方面有一些共同之处,但它们的能力也存在显著差异。
如上图数据显示,与人类相比,多模态大模型展现出不同的技能。如上图所示,像 GPT-4V 这样的模型能够正确回答人类经常答错的专家级问题,特别是在商业以及健康医学等学科领域,人类在这些领域常常遇到困难;然而,它们有时会在较简单的问题上出错(如“青蛙一次产卵多少”、“视频里蓝色的物体有几个”),这可能是由于缺乏上下文理解。
值得注意的是,在艺术与体育以及技术与工程等学科领域的差异,突出了多模态大模型的表现与人类结果不一致的地方。这表明在处理抽象概念时,多模态大模型在感知、认知和推理能力方面存在差异。这些差异表明,多模态大模型可以补充人类的能力,通过将模型的数据驱动洞察力与人类的直觉和上下文知识相结合,为提高任务绩效提供了潜力。
03. AGI 之路还有多远
这项研究不仅是一次评估,更是对 AI 认知边界的探索,模型到底哪里不行呢?
3.1 当前瓶颈
模态理解割裂
所有模型的音频理解准确率(平均 32.44%)显著低于视觉(30.91%)。Gemini视觉感知第一(合成集 69.97分),但纯音频题暴跌至 24.36 分。Video-Chat 靠集成 Whisper 语音模型,成为唯一音频表现(38.82%)优于视觉(39.07%)的模型。
难以有效融合视听线索理解事件(如手术器械声+画面联动),音频-视觉信息的协同处理仍是短板。
知识碎片化
模型尚未形成真正的“通用知识网络”,GPT-4o 在商业领域的 91.14% 与艺术运动的 47.87% 形成鲜明对比。模型对动作先后逻辑的敏感度远低于人类。
跨学科泛化能力仍是黑洞,开源模型 Video-LLaVA-7B 在具身任务的优势(63.17%)未能迁移至相近的工程领域(58.16%)。
3.2 未来方向
MMWorld 暴露的不仅是短板,更是进化路径:
知识注入:需融合结构化领域知识(如医学图谱、物理定律),而非仅依赖统计学习。
因果建模:从“关联”走向“反事实推理”,例如引入符号逻辑模块。
多模态对齐:解决“视听割裂”(如 Video-Chat 听觉强于视觉的奇葩特性)。
评估革新:传统感知型基准(如 ImageNet)已过时,动态因果推理才是 AGI 试金石。
04.总结
“当 AI 在专家级问题上超越人类,却对基础物理束手无策时,我们需重新思考世界模型的本质。”当前的AI 是“专家型婴儿”,拥有庞大数据记忆,却缺乏孩童的物理直觉。MMWorld 基准测试在追求能够理解复杂视频内容的先进多模态语言模型方面迈出了重要一步。通过展示涵盖 7 个学科的多样化视频,并提出要求模型展示解释、反事实思维、未来预测和领域专业知识的问题,为下一代人工智能创造了一个严格的测试平台。
AI 的进步始终伴随着评估体系的进化。MMWorld 的残酷实验证明:能认猫认狗的 AI 很多,但懂“猫为什么怕狗”的 AI 还没出生,教会AI 理解动态世界的复杂度,远比让它通过图灵测试更重要。MMWorld 的诞生,标志着 AI 评估从“答对题”转向“懂世界”—— 这不仅是技术挑战,更是对人类认知本质的重新审视。
世界是一场永续的视频,而 AI 刚刚按下播放键。理解动态世界是迈向 AGI 的必经之路,需要模型兼具感知精度、推理深度与领域广度。期待更多研究者利用 MMWorld 这一工具,共同推动多模态 AI 的下一次突破!
05.合作邀约
AGI-Eval是上海交通大学、同济大学、华东师范大学、DataWhale等高校和机构合作发布的大模型评测社区,旨在打造公正、可信、科学、全面的评测生态,以“评测助力,让“AI 成为人类更好的伙伴” 为使命,专门设计用于评估基础模型在人类认知和问题解决相关任务中的一般能力。
合作方式:
数据托管:论文作者将评测集授权托管给 AGI-Eval 大模型评测社区,新模型出现后,社区实时更新评测结果,论文作者可免去评测成本烦恼,与 AGI-Eval 一起共建开源社区。
双向引流:提供 GitHub 可附的公开、独立网站链接,支持论文用户、评测社区用户双向访问。
我们热忱欢迎更多的论文作者加入 AGI-Eval 大家庭!无论您专注于多模态理解评测能力建设、自动化评测方法,还是评测数据集自动更新研究,亦或是其他 AI 关键领域;无论您是初出茅庐、满怀热忱的新锐学者,还是经验丰富、硕果累累的资深专家……在这里,都有一片属于您的创新沃土。
真正的智能不应是考试机器,而是能理解人类思维的协作者。携手 AGI-Eval 大模型评测社区,共同破解“模型看似合理,实则偏离人类思维”的黑箱谜题,用科学标尺丈量 AI 的“人类化”进程,一起为 AI 的未来添砖加瓦!
👉 合作渠道:
合作咨询:AGI-Eval小助手【微信号:AGI-Eval001】
合作邮箱:agieval12@gmail.com
最后,如果你也喜欢这篇文章,那就点赞转发收藏吧~下一期继续为你带来使用干货,别忘了关注我们!
— 完 —
>/ 联系AGI-Eval小助手:请添加微信 AGI-Eval001
>/ 投稿请联系邮箱:agieval17@gmail.com

