大数跨境
0
0

复杂空间推理新SOTA,性能提升55%!中山大学新作SpatialDreamer

复杂空间推理新SOTA,性能提升55%!中山大学新作SpatialDreamer 新智元
2025-12-20
1
编辑:LRST

【新智元导读】中山大学等机构推出SpatialDreamer,通过主动心理想象和空间推理,显著提升了复杂空间任务的性能。模拟人类主动探索、想象和推理的过程,解决了现有模型在视角变换等任务中的局限,为人工智能的空间智能发展开辟了新路径。

尽管多模态大语言模型(MLLMs)在场景理解方面取得进展,但在需心理模拟的复杂空间推理任务中仍表现有限。现有方法多依赖被动观察,缺乏人类特有的主动想象与动态更新内部表征能力。例如,在判断遮挡物体位置的任务中,因视角单一常导致推理失败。

为此,MBZUAI与中山大学研究团队提出SpatialDreamer,一个基于强化学习的框架,通过主动探索、视觉想象与证据融合的闭环过程,赋予MLLMs类人的空间心理模拟能力。

论文链接

核心机制:主动闭环推理流程

SpatialDreamer模拟人类空间认知过程,构建包含三个步骤的闭环推理流程:

  • 探索:模型根据当前场景推理出最优自我中心动作(如“前进0.75米”或“左转45度”);
  • 想象:调用世界模型(如SVC)生成执行动作后的新视角图像;
  • 推理:整合所有累积的视觉证据,生成最终答案。

该机制使模型从被动观察转向主动目标导向的想象,实现自主决策“去哪看、看什么、如何推理”。

训练优化:GeoPO策略提升效率

针对长序列推理中奖励稀疏问题,团队提出GeoPO方法,结合树状采样结构与几何一致性约束:

  • 树状采样:每步采样多个动作分支,支持回溯与多路径探索;
  • 多级奖励设计:融合任务级与步级奖励,提供细粒度反馈;
  • 几何惩罚机制:对冗余或冲突动作施加惩罚系数(如0.9),鼓励高效轨迹生成。

GeoPO不仅提升模型性能,还显著加快训练收敛速度

数据构建:引导模型深度思考

为训练“思考-想象-回答”模式,构建SpatialDreamer-SFT数据集,包含单轮推理与反思式推理数据。后者通过“错误注入→自我纠正→重建推理链”方式生成,增强模型纠错与逻辑重构能力。

实验结果:多项基准领先

在多个空间推理基准测试中,SpatialDreamer表现优异:

  • SAT:真实与合成图像平均准确率分别达93.9%与92.5%,达到SOTA;
  • MindCube-Tiny:整体准确率84.9%,较Qwen2.5-VL-7B基线提升超55%;
  • VSI-Bench:在物体计数、相对方向、路径规划等任务中全面领先,平均准确率达62.2%。

总结:迈向具备空间想象的通用智能

SpatialDreamer的意义不仅在于提升空间推理准确率,更在于验证了MLLMs可通过“想象力”增强推理能力,向人类水平的空间智能迈出关键一步,为未来通用人工智能的发展提供新范式。

参考资料:
https://arxiv.org/pdf/2512.07733
【声明】内容源于网络
0
0
新智元
智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。
内容 14628
粉丝 0
新智元 智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。
总阅读79.5k
粉丝0
内容14.6k