大数跨境
0
0

【学术分享】OST-Bench:具身模型在线时空理解评估基准

【学术分享】OST-Bench:具身模型在线时空理解评估基准 具身智能制造
2025-12-08
2
导读:上海 AI 实验室、香港大学等团队推出OST-Bench,首个聚焦 “在线时空理解” 的基准,模拟智能体主动探索场景,揭露 MLLM 在 embodied 任务中的关键缺陷,为真实世界机器人导航、人机

现有多模态大模型(MLLMs)在静态图片 / 视频理解上表现亮眼,但真实世界中,智能体需要动态探索、增量观察、结合历史记忆做空间推理—— 这正是当前模型的核心短板。上海 AI 实验室、香港大学等团队推出OST-Bench,首个聚焦 “在线时空理解” 的基准,模拟智能体主动探索场景,揭露 MLLM 在 embodied 任务中的关键缺陷,为真实世界机器人导航、人机交互等应用提供评估新范式!

ead9c665-8bc6-496b-90c2-b0becd075d82.png




Fig.1 直观展示核心差异:传统离线基准(上)基于固定长度视频回答问题;OST-Bench(下)模拟智能体逐步探索,答案随观察积累动态更新(蓝→红→绿),红色标注 “增量观察 + 历史记忆融合”,更贴近真实世界感知逻辑。



01

为什么需要 OST-Bench?现有基准的致命缺陷

传统空间推理基准(如 ScanQA、SQA3D)均为离线设置,模型接收完整预录制数据(3D 点云 / 固定视频),无需考虑 “动态探索” 和 “记忆管理”。但真实世界中,智能体(机器人 / 人类)是主动移动的:


  1. 观察是增量获取的,需实时整合新帧与历史记忆;

  2. 空间关系是动态变化的(如 “杯子从前方变为左后方”);

  3. 无绝对坐标系,所有推理依赖智能体自身视角和运动轨迹。


OST-Bench 填补了这一空白,成为首个模拟 “在线探索 + 时空推理” 的基准,数据均来自论文设计:

  • 场景来源:1.4k 真实室内场景(ScanNet、Matterport3D、ARKitScenes);

  • 数据规模:10k QA 对,覆盖智能体探索的多轮对话;

  • 核心特点:智能体视角、增量输入、时空动态融合。

383939cd-71d8-42e4-8a00-46158bd570f7.png




Fig.2 展示三大核心任务类别(15 个子类型),红色标注关键任务方向:智能体状态(自身位置 / 姿态)、可见信息(物体存在 / 数量)、智能体 - 物体空间关系(距离 / 方向),全面覆盖在线时空推理需求。


02

OST-Bench 核心设计:模拟真实世界探索

OST-Bench 的设计完全贴合 embodied 智能体的工作模式,所有细节均来自论文:


  1. 在线增量输入:采用多轮对话形式,每轮追加 4-5 帧新探索画面,模型需结合所有历史帧回答问题;

  2. 时空推理要求:无绝对坐标,所有空间描述(距离 / 方向)基于智能体当前视角和历史运动轨迹;

  3. 任务多样性:三大类 15 个子类型,涵盖判断、计数、时间定位、估计四种格式(如 “你现在离 Round2 的位置有多远?”“哪个物体是本轮新发现的?”);

  4. 数据质量:基于高质量人工标注(EmbodiedScan、MMScan),规则化生成,人工验证错误率低于 5%。

adb438c4-dcd4-4cb8-bd5b-173eaca3fc75.png




Fig.3 揭示关键现象:所有模型(包括 GPT-4o、Claude-3.5)的准确率随探索轮次增加持续下降,红色标注 “智能体 - 物体空间关系” 任务下降最显著,几轮后接近随机水平,暴露长时记忆和动态空间推理短板。
03

实验震撼发现:顶尖 MLLM 距人类差 30%

论文评估了 10 + 主流 MLLM(GPT-4o、Claude-3.5、Gemini-2.0-Flash、InternVL-2.5 等),所有数据均来自论文实验结果:


  1. 性能差距显著:即使最先进的 GPT-4o,整体准确率也仅 57.4%,落后人类基准(83.5%)超 30%;

  2. 任务分化严重:模型在 “可见信息” 任务(如 “是否见过杯子”)表现尚可(平均 70%),但 “智能体状态”“空间关系” 任务接近随机水平(30%-40%);

  3. 长时记忆失效:探索轮次超过 4 轮后,模型无法检索关键历史信息,准确率骤降(Fig.3);

  4. 错误类型集中:推理错误占比超 60%(Fig.4),远高于提示解析错误(<10%)和感知错误(30%)。

cf108d78-653a-4f66-b56c-cf42abc58bb0.png




Fig.4 清晰展示:智能体状态和空间关系任务中,推理错误是主要瓶颈(红色标注),说明模型并非看不懂画面,而是不会结合历史和当前信息做动态空间推理。



04

核心挑战:MLLM 的两大致命短板

通过深入分析模型错误,论文发现当前 MLLM 在在线时空推理中存在两大核心缺陷,所有结论均来自论文:


  1. 时空推理捷径(Spatio-temporal Reasoning Shortcut):模型不愿检索长时记忆,倾向于浅层推理(如 “当前看不见的物体就是在后方”“可见物体更近”),Fig.5 展示典型错误 —— 模型仅因电视当前不可见就推断在左后方,忽略中间帧的空间锚点;

  2. 复杂空间推理 + 长时记忆双瓶颈:跨视角分析显示(Fig.7),模型在 “多步空间推理”“序列级长时记忆” 任务中准确率骤降至 10%,这两大能力是在线时空理解的关键。

2e424ae9-79cd-4b09-bb27-12f1c191d3ea.png


Fig.5 中红色标注模型错误逻辑:仅通过 “电视曾在前方 + 当前不可见” 就草率推断 “在左后方”,未利用桌子、椅子等空间锚点做严谨推理,暴露浅层推理问题。

abf2ac69-5201-4bf8-83b1-0f8f5a462482.png






Fig.7 揭示:从 “单步→多步空间推理”“关键帧→序列级记忆”,所有模型性能断崖式下降,红色标注 “多步 + 序列” 任务准确率仅 10%,证实两大核心瓶颈。
05

微调也救不了?数据驱动的局限性


论文还做了微调实验:用 50k OST-Bench 训练样本微调 QwenVL-2.5、InternVL-2.5 等模型,结果显示(论文 Table4):


  • 微调仅提升 10%-15%,仍距人类基准差 20%;

  • 提升集中在 “可见信息” 任务,“空间关系”“智能体状态” 任务无本质改善;

  • 模型倾向于记忆数据模式而非真正理解,出现 “伪提升”(如固定输出相似数值)。

cf87974f-cdce-4556-a984-8a37cc79c07d.png


这说明:仅靠数据缩放无法解决在线时空推理问题,未来需从模型架构(如增强长时记忆模块)、训练方法(如时空推理专用预训练)突破。

论文出处

  • 标题:《OST-Bench: Evaluating the Capabilities of MLLMs in Online Spatio-temporal Scene Understanding》

  • 作者:Jingli Lin, Chenming Zhu, Runsen Xu, et al.(上海 AI 实验室、上海交通大学、香港大学、香港中文大学)

  • 开源链接:项目主页 https://rbler1234.github.io/OSTBench.github.io/;代码 / 数据集 https://github.com/InternRobotics/OST-Bench

  • 发表版本:arXiv:2507.07984v2 [cs.CV]

  • 版权声明:本文内容均来源于上述论文,版权归原作者及所属机构所有,转载请注明出处。

关注【具身智能制造】,每周拆解机器人与 AI 领域顶会,带你紧跟前沿技术~

【声明】内容源于网络
0
0
具身智能制造
深耕尖端工业智能决策系统研发,涵盖高算力云化控制器与工业具身智造底座等产品,致力于实现我国高端制造与智能制造技术的自主可控!诚邀各界英才携手共进,共创行业新未来~
内容 41
粉丝 0
具身智能制造 深耕尖端工业智能决策系统研发,涵盖高算力云化控制器与工业具身智造底座等产品,致力于实现我国高端制造与智能制造技术的自主可控!诚邀各界英才携手共进,共创行业新未来~
总阅读12
粉丝0
内容41