现有多模态大模型(MLLMs)在静态图片 / 视频理解上表现亮眼,但真实世界中,智能体需要动态探索、增量观察、结合历史记忆做空间推理—— 这正是当前模型的核心短板。上海 AI 实验室、香港大学等团队推出OST-Bench,首个聚焦 “在线时空理解” 的基准,模拟智能体主动探索场景,揭露 MLLM 在 embodied 任务中的关键缺陷,为真实世界机器人导航、人机交互等应用提供评估新范式!

为什么需要 OST-Bench?现有基准的致命缺陷
传统空间推理基准(如 ScanQA、SQA3D)均为离线设置,模型接收完整预录制数据(3D 点云 / 固定视频),无需考虑 “动态探索” 和 “记忆管理”。但真实世界中,智能体(机器人 / 人类)是主动移动的:
观察是增量获取的,需实时整合新帧与历史记忆;
空间关系是动态变化的(如 “杯子从前方变为左后方”);
无绝对坐标系,所有推理依赖智能体自身视角和运动轨迹。
场景来源:1.4k 真实室内场景(ScanNet、Matterport3D、ARKitScenes);
数据规模:10k QA 对,覆盖智能体探索的多轮对话;
核心特点:智能体视角、增量输入、时空动态融合。

OST-Bench 核心设计:模拟真实世界探索
OST-Bench 的设计完全贴合 embodied 智能体的工作模式,所有细节均来自论文:
在线增量输入:采用多轮对话形式,每轮追加 4-5 帧新探索画面,模型需结合所有历史帧回答问题;
时空推理要求:无绝对坐标,所有空间描述(距离 / 方向)基于智能体当前视角和历史运动轨迹;
任务多样性:三大类 15 个子类型,涵盖判断、计数、时间定位、估计四种格式(如 “你现在离 Round2 的位置有多远?”“哪个物体是本轮新发现的?”);
数据质量:基于高质量人工标注(EmbodiedScan、MMScan),规则化生成,人工验证错误率低于 5%。

实验震撼发现:顶尖 MLLM 距人类差 30%
论文评估了 10 + 主流 MLLM(GPT-4o、Claude-3.5、Gemini-2.0-Flash、InternVL-2.5 等),所有数据均来自论文实验结果:
性能差距显著:即使最先进的 GPT-4o,整体准确率也仅 57.4%,落后人类基准(83.5%)超 30%;
任务分化严重:模型在 “可见信息” 任务(如 “是否见过杯子”)表现尚可(平均 70%),但 “智能体状态”“空间关系” 任务接近随机水平(30%-40%);
长时记忆失效:探索轮次超过 4 轮后,模型无法检索关键历史信息,准确率骤降(Fig.3);
错误类型集中:推理错误占比超 60%(Fig.4),远高于提示解析错误(<10%)和感知错误(30%)。

核心挑战:MLLM 的两大致命短板
通过深入分析模型错误,论文发现当前 MLLM 在在线时空推理中存在两大核心缺陷,所有结论均来自论文:
时空推理捷径(Spatio-temporal Reasoning Shortcut):模型不愿检索长时记忆,倾向于浅层推理(如 “当前看不见的物体就是在后方”“可见物体更近”),Fig.5 展示典型错误 —— 模型仅因电视当前不可见就推断在左后方,忽略中间帧的空间锚点;
复杂空间推理 + 长时记忆双瓶颈:跨视角分析显示(Fig.7),模型在 “多步空间推理”“序列级长时记忆” 任务中准确率骤降至 10%,这两大能力是在线时空理解的关键。

Fig.5 中红色标注模型错误逻辑:仅通过 “电视曾在前方 + 当前不可见” 就草率推断 “在左后方”,未利用桌子、椅子等空间锚点做严谨推理,暴露浅层推理问题。

微调也救不了?数据驱动的局限性
论文还做了微调实验:用 50k OST-Bench 训练样本微调 QwenVL-2.5、InternVL-2.5 等模型,结果显示(论文 Table4):
微调仅提升 10%-15%,仍距人类基准差 20%;
提升集中在 “可见信息” 任务,“空间关系”“智能体状态” 任务无本质改善;
模型倾向于记忆数据模式而非真正理解,出现 “伪提升”(如固定输出相似数值)。

论文出处
标题:《OST-Bench: Evaluating the Capabilities of MLLMs in Online Spatio-temporal Scene Understanding》
作者:Jingli Lin, Chenming Zhu, Runsen Xu, et al.(上海 AI 实验室、上海交通大学、香港大学、香港中文大学)
开源链接:项目主页 https://rbler1234.github.io/OSTBench.github.io/;代码 / 数据集 https://github.com/InternRobotics/OST-Bench
发表版本:arXiv:2507.07984v2 [cs.CV]
版权声明:本文内容均来源于上述论文,版权归原作者及所属机构所有,转载请注明出处。
关注【具身智能制造】,每周拆解机器人与 AI 领域顶会,带你紧跟前沿技术~

