专注AIGC领域的专业社区,关注微软&OpenAI、百度文心一言、讯飞星火等大语言模型(LLM)的发展和应用落地,聚焦LLM的市场研究和AIGC开发者生态,欢迎关注!
斯坦福大学联合中国科学技术大学的研究团队推出全球首个用于评估视觉语言模型(Vision-Language Models)物理世界理解能力的定量基准——QuantiPhy。该研究揭示了当前主流模型在涉及速度、加速度、尺寸估算等具体数值计算任务中的严重不足。
尽管GPT-4o、Gemini等顶尖模型在描述物理现象时表现流畅,但在需要精确计算的任务中,其性能甚至不及依赖直觉的人类。研究指出,这些模型更像“背诵课本的文科生”,而非能进行精密计算的理科生,缺乏对视觉数据的实际运算能力。
模型物理推理的评估挑战
当前通用视觉智能系统虽已具备处理现实世界数据的能力,并在训练中隐式接触物理规律,但对于具身智能、自动驾驶、AR/VR等应用而言,仅定性理解“苹果会掉落”远远不够,必须准确回答“以多快速度掉落”。
传统评估多基于视觉问答(VQA),采用选择题或文字描述形式,难以区分细微误差与根本性误解。例如,将汽车长度误判为3.1米与31米,在多项选择中均视为错误,但后者反映的是模型完全缺失空间尺度概念。
为此,研究团队提出QuantiPhy基准,要求模型结合视频观察与给定物理先验(如物体尺寸),定量推算其他运动学参数,包括速度、加速度和尺寸。
QuantiPhy包含超3355个视频-文本问答对,覆盖2D/3D运动、静态/动态先验及多样化场景,配备标准化提示词与评分机制,支持跨模型数值准确性对比。
科学构建的运动学推理数据集
QuantiPhy的数据构建兼顾可控性与真实性,来源分为三类:
- Blender模拟:生成物理合理、视觉逼真的2D/3D运动场景,通过脚本提取精确位置、速度、加速度等地面真值,可控制背景复杂度以测试视觉干扰影响。
- 实验室捕捉:利用多视角立体视觉重建真实世界的4D物体运动,涵盖自由落体、斜坡滑动、钟摆、反弹等现象,结合深度相机获取高精度物理量。
- 互联网抓取:筛选单目、静止摄像机拍摄且含已知尺寸参考物(如硬币)的视频,通过人工标注像素位移并换算比例尺,确保单位一致性。
数据按两个维度划分为四类任务:维度(2D或3D)、物理先验(静态尺寸或动态速度/加速度)。其中3D运动因涉及深度变化更具挑战性。
评估采用平均相对准确率(Mean Relative Accuracy, MRA),通过设定容忍阈值衡量预测值与真实值的差距,避免单一阈值带来的不稳定性。
实验结果显示,即便是ChatGPT-5.1和Gemini 2.5 Pro等最先进模型,平均得分仅约50%,未显著超越人类平均分55.6。这表明模型未能有效利用其像素级感知优势。
开源模型中,Qwen3-VL-Instruct-32B表现最佳(46.0分),接近部分中等闭源模型。参数规模提升带来性能增长,但边际效应递减,无法根本解决物理推理瓶颈。
模型推理机制的本质缺陷
研究通过反事实分析揭示模型决策逻辑:当人为修改提示中的物理先验(如将真实车长4.5米改为450米或0.045米),多数模型输出的速度并未随之线性变化,而是固守现实中常见车辆速度范围。
这说明模型并非基于视觉测量进行计算,而是识别出“汽车”后调用预训练记忆中的典型速度分布,输出“合理”猜测。视频内容几乎未参与推理过程。
进一步验证显示,在仅提供文本先验(Prior only)而不提供视频的情况下,许多模型得分与“视频+先验”模式相近,证实其推理高度依赖知识记忆而非实时视觉分析。
影响模型表现的关键因素
研究尝试使用思维链(Chain-of-Thought, CoT)提示引导模型分步计算(测量像素→计算比例→换算真实值),结果发现21个测试模型中仅有3个略有提升,其余表现反而下降。主因在于模型难以准确完成中间步骤,误差逐级放大。
当前视觉语言模型擅长直接生成答案,缺乏执行多步算法推理的能力。
视觉背景复杂度对性能影响较小,真实场景(如街道)中模型表现略优于纯色背景,可能得益于地砖、窗户等隐式参考线索。
物体数量则有明显正向影响:多移动物体提供更多参考系,帮助模型通过相对关系校准估算,体现其具备一定结构化关系推理能力。
结论:迈向真正的物理感知AI
QuantiPhy研究表明,现有视觉语言模型在定量物理推理方面存在“输入不忠实”问题——过度依赖参数化知识,忽视具体视觉输入与物理约束。
这对具身智能发展构成关键障碍。若AI无法根据实时视觉信息进行精确测量与计算,便难以在真实物理环境中做出可靠决策。
未来研究需构建涵盖旋转动力学、柔体形变、多体交互的更全面数据集,并探索引入物理感知目标函数、在富含物理信息的数据上专门预训练等新方法。
唯有当模型真正学会“看”与“算”,而不仅是“猜”,才能实现与物理世界的深度交互。
参考资料:
https://quantiphy.stanford.edu/
https://arxiv.org/pdf/2512.19526
https://github.com/Paulineli/QuantiPhy

