

【学术分享】OST-Bench：具身模型在线时空理解评估基准

具身智能制造

2025-12-08

导读：上海 AI 实验室、香港大学等团队推出OST-Bench，首个聚焦 “在线时空理解” 的基准，模拟智能体主动探索场景，揭露 MLLM 在 embodied 任务中的关键缺陷，为真实世界机器人导航、人机

现有多模态大模型（MLLMs）在静态图片 / 视频理解上表现亮眼，但真实世界中，智能体需要动态探索、增量观察、结合历史记忆做空间推理—— 这正是当前模型的核心短板。上海 AI 实验室、香港大学等团队推出OST-Bench，首个聚焦 “在线时空理解” 的基准，模拟智能体主动探索场景，揭露 MLLM 在 embodied 任务中的关键缺陷，为真实世界机器人导航、人机交互等应用提供评估新范式！

Fig.1 直观展示核心差异：传统离线基准（上）基于固定长度视频回答问题；OST-Bench（下）模拟智能体逐步探索，答案随观察积累动态更新（蓝→红→绿），红色标注 “增量观察 + 历史记忆融合”，更贴近真实世界感知逻辑。

为什么需要 OST-Bench？现有基准的致命缺陷

传统空间推理基准（如 ScanQA、SQA3D）均为离线设置，模型接收完整预录制数据（3D 点云 / 固定视频），无需考虑 “动态探索” 和 “记忆管理”。但真实世界中，智能体（机器人 / 人类）是主动移动的：

观察是增量获取的，需实时整合新帧与历史记忆；
空间关系是动态变化的（如 “杯子从前方变为左后方”）；
无绝对坐标系，所有推理依赖智能体自身视角和运动轨迹。

OST-Bench 填补了这一空白，成为首个模拟 “在线探索 + 时空推理” 的基准，数据均来自论文设计：

场景来源：1.4k 真实室内场景（ScanNet、Matterport3D、ARKitScenes）；
数据规模：10k QA 对，覆盖智能体探索的多轮对话；
核心特点：智能体视角、增量输入、时空动态融合。

Fig.2 展示三大核心任务类别（15 个子类型），红色标注关键任务方向：智能体状态（自身位置 / 姿态）、可见信息（物体存在 / 数量）、智能体 - 物体空间关系（距离 / 方向），全面覆盖在线时空推理需求。

OST-Bench 核心设计：模拟真实世界探索

OST-Bench 的设计完全贴合 embodied 智能体的工作模式，所有细节均来自论文：

在线增量输入：采用多轮对话形式，每轮追加 4-5 帧新探索画面，模型需结合所有历史帧回答问题；
时空推理要求：无绝对坐标，所有空间描述（距离 / 方向）基于智能体当前视角和历史运动轨迹；
任务多样性：三大类 15 个子类型，涵盖判断、计数、时间定位、估计四种格式（如 “你现在离 Round2 的位置有多远？”“哪个物体是本轮新发现的？”）；
数据质量：基于高质量人工标注（EmbodiedScan、MMScan），规则化生成，人工验证错误率低于 5%。

Fig.3 揭示关键现象：所有模型（包括 GPT-4o、Claude-3.5）的准确率随探索轮次增加持续下降，红色标注 “智能体 - 物体空间关系” 任务下降最显著，几轮后接近随机水平，暴露长时记忆和动态空间推理短板。

实验震撼发现：顶尖 MLLM 距人类差 30%

论文评估了 10 + 主流 MLLM（GPT-4o、Claude-3.5、Gemini-2.0-Flash、InternVL-2.5 等），所有数据均来自论文实验结果：

性能差距显著：即使最先进的 GPT-4o，整体准确率也仅 57.4%，落后人类基准（83.5%）超 30%；
任务分化严重：模型在 “可见信息” 任务（如 “是否见过杯子”）表现尚可（平均 70%），但 “智能体状态”“空间关系” 任务接近随机水平（30%-40%）；
长时记忆失效：探索轮次超过 4 轮后，模型无法检索关键历史信息，准确率骤降（Fig.3）；
错误类型集中：推理错误占比超 60%（Fig.4），远高于提示解析错误（<10%）和感知错误（30%）。

Fig.4 清晰展示：智能体状态和空间关系任务中，推理错误是主要瓶颈（红色标注），说明模型并非看不懂画面，而是不会结合历史和当前信息做动态空间推理。

核心挑战：MLLM 的两大致命短板

通过深入分析模型错误，论文发现当前 MLLM 在在线时空推理中存在两大核心缺陷，所有结论均来自论文：

时空推理捷径（Spatio-temporal Reasoning Shortcut）：模型不愿检索长时记忆，倾向于浅层推理（如 “当前看不见的物体就是在后方”“可见物体更近”），Fig.5 展示典型错误 —— 模型仅因电视当前不可见就推断在左后方，忽略中间帧的空间锚点；
复杂空间推理 + 长时记忆双瓶颈：跨视角分析显示（Fig.7），模型在 “多步空间推理”“序列级长时记忆” 任务中准确率骤降至 10%，这两大能力是在线时空理解的关键。

Fig.5 中红色标注模型错误逻辑：仅通过 “电视曾在前方 + 当前不可见” 就草率推断 “在左后方”，未利用桌子、椅子等空间锚点做严谨推理，暴露浅层推理问题。

Fig.7 揭示：从 “单步→多步空间推理”“关键帧→序列级记忆”，所有模型性能断崖式下降，红色标注 “多步 + 序列” 任务准确率仅 10%，证实两大核心瓶颈。

微调也救不了？数据驱动的局限性

论文还做了微调实验：用 50k OST-Bench 训练样本微调 QwenVL-2.5、InternVL-2.5 等模型，结果显示（论文 Table4）：

微调仅提升 10%-15%，仍距人类基准差 20%；
提升集中在 “可见信息” 任务，“空间关系”“智能体状态” 任务无本质改善；
模型倾向于记忆数据模式而非真正理解，出现 “伪提升”（如固定输出相似数值）。

这说明：仅靠数据缩放无法解决在线时空推理问题，未来需从模型架构（如增强长时记忆模块）、训练方法（如时空推理专用预训练）突破。

论文出处

标题：《OST-Bench: Evaluating the Capabilities of MLLMs in Online Spatio-temporal Scene Understanding》
作者：Jingli Lin, Chenming Zhu, Runsen Xu, et al.（上海 AI 实验室、上海交通大学、香港大学、香港中文大学）
开源链接：项目主页 https://rbler1234.github.io/OSTBench.github.io/；代码 / 数据集 https://github.com/InternRobotics/OST-Bench
发表版本：arXiv:2507.07984v2 [cs.CV]
版权声明：本文内容均来源于上述论文，版权归原作者及所属机构所有，转载请注明出处。

关注【具身智能制造】，每周拆解机器人与 AI 领域顶会，带你紧跟前沿技术～

【声明】内容源于网络

具身智能制造

深耕尖端工业智能决策系统研发，涵盖高算力云化控制器与工业具身智造底座等产品，致力于实现我国高端制造与智能制造技术的自主可控！诚邀各界英才携手共进，共创行业新未来～

内容 41

粉丝 0

具身智能制造深耕尖端工业智能决策系统研发，涵盖高算力云化控制器与工业具身智造底座等产品，致力于实现我国高端制造与智能制造技术的自主可控！诚邀各界英才携手共进，共创行业新未来～

总阅读12

粉丝0

内容41