大数跨境

华为SpaceMind登顶空间智能权威榜:纯RGB视觉语言模型拿下70.6分,刷新李飞飞榜单记录

华为SpaceMind登顶空间智能权威榜:纯RGB视觉语言模型拿下70.6分,刷新李飞飞榜单记录 量子位
2026-06-13
10
导读:空间智能的价值,最终要落在真实场景里

导读

大模型虽已具备流畅对话与图像识别能力,但在“理解三维世界”这一底层逻辑上仍存在短板。距离判断、空间方位及多视角一致性等人类本能,正是具身智能、自动驾驶与 AR/VR 发展的关键瓶颈。业界共识指出,下一阶段的竞争核心将从语言语义转向空间智能

近日,华为 GTS AI 算法部联合香港中文大学(深圳)及香港大学,发布了最新研究成果SpaceMind。该工作仅凭 RGB 输入,无需深度图或点云辅助,便将纯视觉语言模型的空间推理能力提升至接近人类水平。在李飞飞团队构建的权威榜单VSI-Bench中,SpaceMind 以70.6%的综合得分刷新纪录(人类平均水平约为 79%)。相关论文已被CVPR 2026接收。

重构相机角色:从元数据到空间引导

现有视觉语言模型(VLM)在处理空间任务时,常将相机参数(内参、外参)视为普通元数据,仅与几何特征简单拼接。这种处理方式导致“视角”与“场景”混淆,模型虽能“看见”图像,却无法精准定位“从何而见”,难以建立一致的空间表征。

人类的空间认知不仅关乎“看到了什么”,更在于“从哪个位置看到”。这种观察视角与场景内容的耦合,是进行距离估算、尺寸比较及路径规划的基础。李飞飞教授提出的“空间智能驱动的 AGI"正是基于此认知逻辑。

SpaceMind 的核心突破在于将这一机制内化为模型结构:把相机参数从被动附录升级为主动调控的「指挥棒」。在李飞飞团队建立的VSI-Bench评测体系中,此前最强模型的整体准确率长期徘徊在60%左右,而 SpaceMind 的成功验证了相机引导范式的有效性,显著缩小了机器与人类(约 79%)在空间理解上的差距。

SpaceMind:相机引导的三模态融合范式

SpaceMind 通过三大创新机制,实现了纯视觉下的度量级空间推理:

定义相机为「引导模态」

首次将相机表示定义为「引导模态」(guiding modality)。不再将其视为与场景同级的普通特征,而是作为主动调控信号,指导空间信息如何注入视觉语义流。这一设计更贴近人类以自我为中心的空间认知逻辑。

即插即用,兼容主流架构

方案无需修改视觉编码器、语言模型或连接器的核心主干。仅在进入大语言模型(LLM)前插入轻量级的Camera-Guided Modality Fusion(CGMF)模块,即可无缝集成到 InternVL、Qwen-VL 等主流架构中,显著降低了从零预训练与迁移的成本。

纯 RGB 实现高精度推理

仅需单张图像或短视频输入,即可支撑绝对/相对距离估算、物体尺寸比较、房间尺度感知、路径规划及跨视角外观顺序判断等高难任务。该方法彻底摆脱了对深度传感器、点云或多视角重建管线的依赖,更贴合真实部署场景。

在架构设计上,SpaceMind 采用双编码器策略:利用 InternViT 提取语义视觉 token,借助 VGGT 获取几何感知的空间 token 与逐帧相机 token。CGMF 模块在融合阶段对空间 token 施加相机条件偏置,学习 query-independent 的几何重要性权重,并通过相机嵌入对融合结果进行门控。最终实现“视角—几何—语义”在统一框架内的精准对齐,支持端到端的 RGB-only 训练。

实验结果:全面刷新 SOTA 纪录

VSI-Bench基准测试中,SpaceMind 以70.6%的整体准确率显著超越 Spatial-MLLM、VLM-3R 等几何增强基线模型,并在多个子任务中展现出压倒性优势。

跨视角一致性大幅提升

在极具挑战的外观顺序(appearance order)任务上,SpaceMind 相较此前方法提升了30.5 个百分点。这证明显式利用相机信号调制空间 token,能有效整合跨视角证据,稳定多视角下的排序判断。同时,其在路径规划(route planning)任务中也保持了极具竞争力的水平。

情境化 3D 问答表现卓越

在基于真实室内重建的SQA3D基准上,SpaceMind 在多数问题类型中取得最佳表现。仅依靠视频 RGB 输入,不依赖深度、点云或网格等辅助模态,便成功从普通视频中恢复了强 3D 空间线索。

强大的域外泛化能力

在未包含训练数据的SPBench域外泛化评测中,SpaceMind 整体得分达67.3%,大幅领先 GPT-4o、Gemini-2.0-Flash 等通用闭源模型,以及 Qwen2.5-VL、Spatial-MLLM 等开源专用模型。即便在仅使用单帧输入的子集上,模型仍展现出强大的跨场景迁移能力,这对实际产品中的“单图问答”应用至关重要。

消融实验进一步验证了设计逻辑:在 InternVL3-8B 基线上,仅通过浅层 cross-attention 融合 VGGT 空间 token 即可带来+3.7 分的提升;叠加 token-weight MLP 与 geometric MLP 后,数值类与多选题子任务持续优化,完整架构达到最高平均准确率。这并非简单的模块堆叠,而是将 3D 视觉中“相机与场景角色分离”的理论,转化为可训练、可扩展的归纳偏置。

SpaceMind++:构建视频级「认知地图」

面向动态真实世界,团队受哺乳动物双通路视觉系统启发,进一步提出SpaceMind++。这是一种能从 RGB 视频中显式构建体素化认知地图的视频 MLLM 架构。

通过坐标引导的深度融合机制,SpaceMind++ 能将碎片化的视角重组为统一的 3D 度量表征,在动态场景中追求空间一致性与物体恒常性推理。其目标不仅是让模型“答对一帧”,更是使其能够“记住房间布局、物体位置及行进路径”。该代码即将开源。

工程落地:昇腾集群助力规模扩展

在工程侧,团队正依托384 卡昇腾 910C算力池,在华为昇腾 NPU 集群上开展大规模预训练与后训练。通过在模型规模、长视频上下文及多任务数据上的同步扩展,SpaceMind 系列正从榜单验证走向可迭代、可部署的工程底座,持续推高空间推理的能力上限。

产业应用:赋能 AIDC 勘测设计

SpaceMind 系列技术的核心价值在于解决真实场景问题,目前已面向AIDC(智算中心)全生命周期中的勘测设计阶段落地:

  • 辅助决策:依托纯 RGB 输入下的距离估计、尺度比较与空间关系推理能力,模型可辅助解读园区航拍、现场巡检视频与机房实景图像,精准理解建筑布局、设备摆放与通道关系,为选址比选、平面规划、机柜列阵与走线设计提供可解释的空间依据。
  • 提效降本:结合 SpaceMind++ 的视频级认知地图能力,可将多视角、多时段的现场记录整合为一致的三维空间理解,大幅减少反复踏勘与人工量测成本,显著提升勘测设计阶段的效率与决策质量

SpaceMind 论文:https://arxiv.org/pdf/2511.23075
SpaceMind 代码:https://github.com/RealMikeDuke/SpaceMind
SpaceMind++ 论文:https://arxiv.org/abs/2605.09449

【声明】内容源于网络
0
0
量子位
各类跨境出海行业相关资讯
内容 16129
粉丝 1
量子位 各类跨境出海行业相关资讯
总阅读261.7k
粉丝1
内容16.1k