大数跨境
0
0

浙江大学与字节跳动联合揭秘:SpatialTree定义AI空间认知新框架

浙江大学与字节跳动联合揭秘:SpatialTree定义AI空间认知新框架 AIGC 深一度
2025-12-31
2
导读:论文标题 :SpatialTree: How Spatial Abilities Branch Out in MLLMs

PART 01
揭秘MLLM空间智能的进化树:SpatialTree如何重新定义AI的空间认知能力

论文标题 :SpatialTree: How Spatial Abilities Branch Out in MLLMs
研究机构 :浙江大学、字节跳动Seed团队、北京交通大学
项目地址 :https://spatialtree.github.io/
从直觉感知到自主行动,字节跳动Seed团队提出首个空间智能层次化评估框架
你是否曾好奇,AI模型是如何理解我们所处的三维世界的?当你说“把左边的杯子递给我”时,AI需要先识别杯子、理解“左边”的概念、规划手臂运动轨迹,最后执行抓取动作——这一系列复杂的空间认知过程,现在终于有了系统的评估框架。
字节跳动Seed团队与浙江大学联合推出的SpatialTree研究,首次将人类的空间认知理论引入多模态大模型评估,构建了一个从基础感知到高级交互的完整能力体系。

PART 02
破解空间智能的“黑箱”:从零散任务到层次化能力树

传统AI空间能力评估存在明显局限:任务类型分散、评测标准不一,难以反映模型的真实能力结构。研究团队从认知科学发展中获得灵感,发现人类空间能力是 按层次逐步发展 的——从最基本的感知开始,逐步进阶到心理映射、模拟推理,最终实现环境交互。
基于这一洞察,SpatialTree框架应运而生。它将空间智能划分为四个清晰层次:
  • L1 感知层:模型的基础视觉感知能力,包括几何属性、运动判断、方向感知等
  • L2 心理映射层:将视觉信息与语言概念对接,形成空间记忆
  • L3 心理模拟层:进行空间推理和行动规划
  • L4 智能体能力层:在真实环境中执行复杂任务

PART 03
全面评测结果:主流模型表现差异显著

研究团队对包括GPT-4o、Gemini系列、Qwen-VL等在内的13个主流MLLM进行了全面评估。评测涵盖27项细分能力,构建了迄今为止最全面的空间智能基准。
结果表明, Gemini 2.5 Pro以50.1的综合得分领先 ,在高层推理任务中表现突出。开源模型中,Qwen3-VL-235B获得40.0分,展现了强劲竞争力。
一个关键发现是:高层级能力之间存在强相关性,而基础感知能力相对独立。这意味着模型在复杂推理任务上的表现,确实依赖于底层感知能力的支撑。

PART 04
训练策略的重大发现:协同效应胜过单点优化

在探索能力迁移规律时,研究团队获得了反直觉的发现: 单一能力的专门训练会产生“负迁移”效应 ——提升某一能力的同时,可能损害其他相关能力。
然而,当同时训练多个基础能力时,出现了显著的 协同效应 。联合训练距离、大小、对应关系等基础能力的模型,整体表现远超各能力独立训练的效果之和。这证明空间智能是一个有机整体,而非孤立技能的简单叠加。

PART 05
强化学习的新范式:区分“思考”与“感知”

在强化学习训练中,团队发现了另一个关键洞察: 不是所有任务都需要“深思熟虑” 。对于直观感知任务,过度推理反而会降低性能;而对于复杂规划任务,充分的思考过程至关重要。
基于此,研究提出了“自动思考”策略,让模型自动判断何时需要深入推理、何时应该快速响应。这种区分处理的方式,使模型在保持感知直觉的同时,增强了复杂推理能力。

PART 06
实际应用前景:从机器人导航到AR交互

SpatialTree的提出不仅具有理论意义,更为AI的实际应用铺平了道路。在机器人导航、自动驾驶、AR/VR交互等领域,精准的空间理解能力都是关键瓶颈。
例如,在机器人操作任务中,具备良好空间认知的模型能够更准确地理解“将物体放在桌子左上角”这样的指令,并规划出合理的运动轨迹。这在智能制造、家庭服务等场景中具有广泛应用前景。

PART 07
未来展望:通向通用空间智能的路线图

SpatialTree为AI空间智能的发展提供了清晰的路线图。研究团队指出,未来的重点包括:
  1. 开发更高效的基础能力训练方法
  2. 探索跨模态空间表示的统一框架
  3. 将空间智能与常识推理更紧密结合
这项研究的意义不仅在于提出了一个新的评测框架,更重要的是 为理解AI智能的涌现提供了新的视角 。正如人类智力发展遵循一定的规律,AI的能力构建同样需要遵循合理的层次结构。

PART 08
推荐阅读

MoE 凭什么成 LLM 未来?混合专家模型颠覆大模型规则
训练 LLM 的 3 大强化学习技术:PPO、DPO、GRPO 核心解析,一文理清区别与实战价值
给AI模型做饭的「自动炒菜机」来了!北大团队开源DataFlow,数据清洗效率提升10倍
人大高瓴孙浩团队,Nature子刊+1

【声明】内容源于网络
0
0
AIGC 深一度
专注AIGC领域,关注微软 OpenAI、百度文心一言、讯飞星火 DeepSeek等大语言模型(LLM)的发展和应用落地,聚焦LLM的市场研究和AIGC,欢迎关注 个人网站 https://www.chenbaiqi.com
内容 479
粉丝 0
AIGC 深一度 专注AIGC领域,关注微软 OpenAI、百度文心一言、讯飞星火 DeepSeek等大语言模型(LLM)的发展和应用落地,聚焦LLM的市场研究和AIGC,欢迎关注 个人网站 https://www.chenbaiqi.com
总阅读108
粉丝0
内容479