华为SpaceMind登顶空间智能权威榜：纯RGB视觉语言模型拿下70.6分，刷新李飞飞榜单记录- 大数跨境

华为SpaceMind登顶空间智能权威榜：纯RGB视觉语言模型拿下70.6分，刷新李飞飞榜单记录

量子位

2026-06-13

导读：空间智能的价值，最终要落在真实场景里

导读

大模型虽已具备流畅对话与图像识别能力，但在“理解三维世界”这一底层逻辑上仍存在短板。距离判断、空间方位及多视角一致性等人类本能，正是具身智能、自动驾驶与 AR/VR 发展的关键瓶颈。业界共识指出，下一阶段的竞争核心将从语言语义转向空间智能。

近日，华为 GTS AI 算法部联合香港中文大学（深圳）及香港大学，发布了最新研究成果SpaceMind。该工作仅凭 RGB 输入，无需深度图或点云辅助，便将纯视觉语言模型的空间推理能力提升至接近人类水平。在李飞飞团队构建的权威榜单VSI-Bench中，SpaceMind 以70.6%的综合得分刷新纪录（人类平均水平约为 79%）。相关论文已被CVPR 2026接收。

重构相机角色：从元数据到空间引导

现有视觉语言模型（VLM）在处理空间任务时，常将相机参数（内参、外参）视为普通元数据，仅与几何特征简单拼接。这种处理方式导致“视角”与“场景”混淆，模型虽能“看见”图像，却无法精准定位“从何而见”，难以建立一致的空间表征。

人类的空间认知不仅关乎“看到了什么”，更在于“从哪个位置看到”。这种观察视角与场景内容的耦合，是进行距离估算、尺寸比较及路径规划的基础。李飞飞教授提出的“空间智能驱动的 AGI"正是基于此认知逻辑。

SpaceMind 的核心突破在于将这一机制内化为模型结构：把相机参数从被动附录升级为主动调控的「指挥棒」。在李飞飞团队建立的VSI-Bench评测体系中，此前最强模型的整体准确率长期徘徊在60%左右，而 SpaceMind 的成功验证了相机引导范式的有效性，显著缩小了机器与人类（约 79%）在空间理解上的差距。

SpaceMind：相机引导的三模态融合范式

SpaceMind 通过三大创新机制，实现了纯视觉下的度量级空间推理：

定义相机为「引导模态」

首次将相机表示定义为「引导模态」（guiding modality）。不再将其视为与场景同级的普通特征，而是作为主动调控信号，指导空间信息如何注入视觉语义流。这一设计更贴近人类以自我为中心的空间认知逻辑。

即插即用，兼容主流架构

方案无需修改视觉编码器、语言模型或连接器的核心主干。仅在进入大语言模型（LLM）前插入轻量级的Camera-Guided Modality Fusion（CGMF）模块，即可无缝集成到 InternVL、Qwen-VL 等主流架构中，显著降低了从零预训练与迁移的成本。

纯 RGB 实现高精度推理

仅需单张图像或短视频输入，即可支撑绝对/相对距离估算、物体尺寸比较、房间尺度感知、路径规划及跨视角外观顺序判断等高难任务。该方法彻底摆脱了对深度传感器、点云或多视角重建管线的依赖，更贴合真实部署场景。

在架构设计上，SpaceMind 采用双编码器策略：利用 InternViT 提取语义视觉 token，借助 VGGT 获取几何感知的空间 token 与逐帧相机 token。CGMF 模块在融合阶段对空间 token 施加相机条件偏置，学习 query-independent 的几何重要性权重，并通过相机嵌入对融合结果进行门控。最终实现“视角—几何—语义”在统一框架内的精准对齐，支持端到端的 RGB-only 训练。

实验结果：全面刷新 SOTA 纪录

在VSI-Bench基准测试中，SpaceMind 以70.6%的整体准确率显著超越 Spatial-MLLM、VLM-3R 等几何增强基线模型，并在多个子任务中展现出压倒性优势。

跨视角一致性大幅提升

在极具挑战的外观顺序（appearance order）任务上，SpaceMind 相较此前方法提升了30.5 个百分点。这证明显式利用相机信号调制空间 token，能有效整合跨视角证据，稳定多视角下的排序判断。同时，其在路径规划（route planning）任务中也保持了极具竞争力的水平。

情境化 3D 问答表现卓越

在基于真实室内重建的SQA3D基准上，SpaceMind 在多数问题类型中取得最佳表现。仅依靠视频 RGB 输入，不依赖深度、点云或网格等辅助模态，便成功从普通视频中恢复了强 3D 空间线索。

强大的域外泛化能力

在未包含训练数据的SPBench域外泛化评测中，SpaceMind 整体得分达67.3%，大幅领先 GPT-4o、Gemini-2.0-Flash 等通用闭源模型，以及 Qwen2.5-VL、Spatial-MLLM 等开源专用模型。即便在仅使用单帧输入的子集上，模型仍展现出强大的跨场景迁移能力，这对实际产品中的“单图问答”应用至关重要。

消融实验进一步验证了设计逻辑：在 InternVL3-8B 基线上，仅通过浅层 cross-attention 融合 VGGT 空间 token 即可带来+3.7 分的提升；叠加 token-weight MLP 与 geometric MLP 后，数值类与多选题子任务持续优化，完整架构达到最高平均准确率。这并非简单的模块堆叠，而是将 3D 视觉中“相机与场景角色分离”的理论，转化为可训练、可扩展的归纳偏置。

SpaceMind++：构建视频级「认知地图」

面向动态真实世界，团队受哺乳动物双通路视觉系统启发，进一步提出SpaceMind++。这是一种能从 RGB 视频中显式构建体素化认知地图的视频 MLLM 架构。

通过坐标引导的深度融合机制，SpaceMind++ 能将碎片化的视角重组为统一的 3D 度量表征，在动态场景中追求空间一致性与物体恒常性推理。其目标不仅是让模型“答对一帧”，更是使其能够“记住房间布局、物体位置及行进路径”。该代码即将开源。

工程落地：昇腾集群助力规模扩展

在工程侧，团队正依托384 卡昇腾 910C算力池，在华为昇腾 NPU 集群上开展大规模预训练与后训练。通过在模型规模、长视频上下文及多任务数据上的同步扩展，SpaceMind 系列正从榜单验证走向可迭代、可部署的工程底座，持续推高空间推理的能力上限。

产业应用：赋能 AIDC 勘测设计

SpaceMind 系列技术的核心价值在于解决真实场景问题，目前已面向AIDC（智算中心）全生命周期中的勘测设计阶段落地：

辅助决策：依托纯 RGB 输入下的距离估计、尺度比较与空间关系推理能力，模型可辅助解读园区航拍、现场巡检视频与机房实景图像，精准理解建筑布局、设备摆放与通道关系，为选址比选、平面规划、机柜列阵与走线设计提供可解释的空间依据。
提效降本：结合 SpaceMind++ 的视频级认知地图能力，可将多视角、多时段的现场记录整合为一致的三维空间理解，大幅减少反复踏勘与人工量测成本，显著提升勘测设计阶段的效率与决策质量。

SpaceMind 论文：https://arxiv.org/pdf/2511.23075
SpaceMind 代码：https://github.com/RealMikeDuke/SpaceMind
SpaceMind++ 论文：https://arxiv.org/abs/2605.09449

【声明】内容源于网络

量子位

各类跨境出海行业相关资讯

内容 16129

粉丝 1

量子位各类跨境出海行业相关资讯

总阅读261.7k

粉丝1

内容16.1k