极市导读
上交等五校系统盘点 VLM「视觉空间推理」短板:新建 23 任务基准 SIBench,揭示模型在数值估计、跨视角与动态规划上全面落后,并给出数据-预训练-架构三步求解路线。>>加入极市CV技术交流群,走在计算机视觉的最前沿
25年9月来自上海交大、腾讯、澳门大学、大连理工大学和香港中文大学的论文“How Far are VLMs from Visual Spatial Intelligence? A Benchmark-Driven Perspective”。
前言
视觉空间推理(VSR)是人类的核心认知能力,也是推进具身智能和自主系统发展的关键要求。尽管视觉-语言模型(VLM)近年来取得了显著进展,但由于三维空间表征和推理的复杂性,实现人类水平的VSR仍然极具挑战性。
本文对VLM中的VSR进行系统性研究,回顾现有方法在输入模态、模型架构、训练策略和推理机制等方面的应用。此外,将空间智能分为三个能力层次:基本感知、空间理解和空间规划,并构建空间智能基准测试平台SIBench,该平台涵盖近20个开源数据集,涉及23种任务场景。使用最先进的VLM进行的实验表明,感知和推理之间存在显著差距:模型在基本感知任务中表现出色,但在理解和规划任务中表现始终不佳,尤其是在数值估计、多视图推理、时间动态和空间想象方面。这些发现凸显在实现空间智能方面仍然存在的巨大挑战,同时也为推动该领域未来的研究提供了系统的路线图和全面的基准。
如图所示:在最先进模型在23项视觉空间推理任务上的性能(左图),评估结果表明,这些模型仍有很大的改进空间,尤其是在需要精确数值估计、视角转换、时间信息处理以及空间想象的任务中;在视觉空间推理与通用视觉质量评估(VQA)的比较(右上图),通用VQA任务主要侧重于从图像中提取语义信息,而视觉空间推理则需要更深入地建模和推理空间关系;在视觉空间推理的数据格式和任务设置(右下图),评估包括3种输入格式和23种任务设置,涵盖三个层次:基本感知、空间理解和规划。
视觉空间推理是人类的一项基本认知能力。它使我们能够从观察世界中提取丰富的空间信息,这对于在现实世界环境中导航和互动至关重要。这种能力不仅对人类至关重要,而且对于推进具身智能和自动驾驶等关键人工智能领域也不可或缺。因此,在机器中实现人类水平的视觉空间推理一直是研究界长期追求的目标。然而,这一目标仍然极具挑战性,主要原因是三维(3D)空间的表示和推理本身就非常复杂。
近年来,视觉语言模型(VLM)– 因其强大的视觉理解和推理能力而备受关注,并在各种视觉问答(VQA)任务中得到了广泛应用。与此同时,一些新兴的研究开始将视觉语言模型(VLM)应用于视觉空间推理(VSR)。然而,与通常侧重于语义层面理解的通用视觉问答(VQA)相比,VSR面临着一系列截然不同且更为艰巨的挑战。通用VQA的目标是物体识别或属性识别,而VSR则需要对复杂的空间动态进行精细的推理,例如物体的相对位置、方向、距离和运动。这种对深度空间感知的需求在多视角和视频环境中尤为突出,这不仅增加了推理的复杂性,也提高了模型产生错觉的可能性。此外,数据整理也面临着同样的挑战。构建稳健的VSR数据集的要求要高得多,它需要精确的空间标注和复杂的场景分析,远远超出了传统VQA基准测试的要求。
与此同时,VSR领域的研究正在迅速发展,目前的研究主要集中在两个方面。一方面,该领域持续推动输入模式、模型架构、训练策略和推理机制方面的创新。另一方面,人们正致力于开发更高质量、更多样化的数据集,以全面评估视觉空间推理(VSR)能力。
近年来,随着视觉语言模型(VLM)和生成模型的发展,空间智能的实现前景日益光明。空间智能体现在多个方面。首先,智体通过传感器输入感知三维世界,理解其基本属性,进而理解空间关系和物理定律。此外,智体可以与环境交互,例如执行空间导航和操作物体。创造和想象全新世界的能力也是空间智能的关键方面。空间智能的应用范围十分广泛,涵盖了空间推理、具身人工智能和视频世界模型等众多任务和应用。
对于智体而言,图像/视频输入是一种易于获取且成本低廉的数据形式。对于生物体而言,视觉也是空间建模的重要途径。因此,本文重点关注视觉-语言模型(VLM)在空间推理中的应用,包括从图像、多视角输入或视频中解读空间信息,以及基本感知、空间关系理解和规划。(注:以点云作为多模态空间推理输入的任务,或基于纯文本的空间推理任务,均不在本文范围内。此外,虽然生成模型也体现了空间智能,但它们在建模机制和空间表示方面与VLM存在显著差异,因此不在本文的讨论范围之内。)本文主要关注VLM理解空间关系的一般能力,而诸如视觉-语言-动作模型(VLA)和视觉-语言-导航模型(VLN)等具体应用并非本文的研究重点。
多项研究对视觉-语言模型(VLM)的开发和评估框架进行了全面的综述。例如,系统地梳理VLM的技术演进、评估基准和应用场景,并着重指出处理复杂任务时可能出现的性能波动。该研究还建议引入新的评估指标,强调视觉定位和多模态理解的重要性。
研究了LLM与3D空间理解的融合,分析了数据表示、模型架构和评估指标方面的挑战,并针对这三个方面提出了改进建议。值得注意的是,主要关注使用3D表示作为输入,而非图像/视频输入。Zha也探索了LLM的空间推理能力,并根据图像、点云和混合模态等输入模态对任务进行了分类。此外,一些研究揭示了视觉-语言模型(VLM)在空间推理能力方面的不足,例如缺乏有效的空间注意机制,或者现有注意机制与物体位置对齐的能力有限。Sapkot回顾了视觉-语言-动作模型(VLA)的发展,并指出在实际应用中,这些模型在实时控制、数据集偏差和系统集成方面面临挑战。的研究人员讨论VLM在自动驾驶场景中的应用,指出VLM在复杂的交通环境中可靠性仍然不足。Guo总结VLM的技术发展和应用,重点强调了生物医学领域在数据质量和复杂任务方面面临的挑战。
本研究的范围是VLM的空间推理能力,特别是针对纯视觉能力,其输入可以是单幅图像、多视角图像或视频。目标是回顾视觉空间推理领域的最新进展,并将空间推理分为三个认知层次:基本感知、空间理解和规划。对现有的任务模型进行详细而系统的分析。此外,还收集并整理一个来自开源基准测试的高质量、全面的数据集,用于评估视觉空间模型(VLM)的空间推理能力。
视觉空间推理(VSR)要求 VLM 不仅要理解语义信息和定位目标,还要能够推理多个物体之间的空间关系,从二维图像中想象三维空间结构,并具备动态预测的能力。现有的研究方法,归纳为四个需要改进的方面:输入模态、模型架构、训练策略和推理方法(细节如图所示)。
01 简单求解
与一般的视觉语言模型类似,VSR 模型以图像 I 和空间相关的问题 Q 作为输入,生成答案 A。整个过程可以概念化为对条件概率 P(A|I,Q) 进行建模。该架构通常包含三个核心组件:视觉编码器 f_vision、投影模块 g_proj 和大语言模型(LLM)f_LLM。
通常,视觉编码器处理图像以提取一组特征向量 F_v = f_vision(I),其中 F_v 是一个包含 N 个特征向量的序列,每个特征向量的维度为 D_v,同时捕获语义和空间信息。同时,文本问题 Q 由文本编码器转换为嵌入 E_q。考虑到两种模态之间维度和特征空间可能存在不匹配,投影模块用于将视觉特征与文本嵌入空间对齐。该模块将 F_v 转换为新的表示 F_v′ = g_proj(F_v)。这种投影通常使用几个线性层或交叉注意机制来实现,将视觉特征映射到 F_v′,使其维度与文本嵌入对齐。
最后,将来自两种模态的特征连接起来并输入到 LLM 中,LLM 通过自回归生成答案:A = f_LLM(concat(F_v′, E_q))。这种结构的典型例子包括 SpatialVLM 、LLaVA-VSD以及其他相关工作。这种简单的解决方案既简洁又高效。后续工作着重于视觉空间推理任务的具体特征,通常在四个关键方面进行改进:输入模态、模型架构、训练策略和推理方法。
02 输入模态
RGB图像是三维世界的平面投影,能够提供连续的纹理信息。然而,在投影过程中,真实的三维结构信息会丢失,这是视觉空间推理任务面临的挑战之一。三维点云能够更好地表示结构,但其数据规模、多样性和质量远逊于图像。因此,一些方法试图在三维和二维之间取得平衡。这些方法通常被称为2.5D,它们利用深度图作为额外的模态。其动机在于,将深度图与图像相结合可以得到类似于点云的表示,从而能够在真实世界中恢复三维结构,同时输入图像保留完整的复杂纹理。此外,这种RGB-D数据相对容易获取,尤其是在具身场景中。
由于深度图和自然图像之间存在巨大的分布差异,因此有效地编码深度图绝非易事。此外,大多数 VLM 的视觉编码器仅针对文本-图像对进行训练,简单地连接 RGB 和深度特征可能会对性能产生负面影响。
03 模型架构
许多现有的视觉-语言模型,例如 LLaVA 及其后续版本,都采用对比学习来预训练视觉编码器,从而生成紧凑且富有表现力的视觉嵌入。这些模型与自然语言高度契合,在图像描述和一般视觉问答等任务中表现出色。然而,与 CLIP中使用的对比学习类似,它们主要优化全局语义对齐,而往往忽略了细粒度的空间推理。因此,这些编码器生成的视觉嵌入虽然能够捕捉图像的整体语义要点,但只能粗略地表示图像内容,并且在编码精确的空间信息方面存在固有的局限性。
为了克服这一局限性,一种强有力的策略应运而生:双视觉编码器架构。该设计通过创建两条互补的视觉通路来解决这个问题。第一个原始编码器提供高层语义上下文,而第二个专用编码器则用于提供细粒度的细节信息。对于单幅图像输入,SpatialLLM和 ViCA2等模型集成在面向细节的任务上预训练的附加编码器。选择 MAE 、DINO v2和 SAM 等模型的原因在于,它们的训练目标(例如掩码图像重建或大规模分割)迫使它们学习主语义编码器忽略的丰富的像素级特征。对于具有固有 3D 信息的输入(例如视频或多视角图像),这种方法更进一步。
标准的细粒度编码器可能不足以解释运动和视差中蕴含的几何线索。因此,一些研究使用 3D 重建模型作为第二个编码器。例如,VLM-3R集成 CUT3R,可以从多个视角对场景的底层三维几何结构进行建模。通过这种方式,模型能够获得更丰富的表示,包括深度和结构信息。类似地,VG-LLM 和 Spatial-MLLM 使用 VGGT等先进的重建网络,使语言模型能够更深入地理解三维空间,从而显著增强其空间推理能力。
04 训练策略
视觉空间推理(VSR)超越了对静态结构的感知,通常需要基于常识知识的动态多步骤推理。这种多步骤特性使其天然适合强化学习,尤其是组相对策略优化(GRPO),后者已成功提升了LLM和VLM的文本推理和生成能力。受此启发,越来越多的研究正在探索强化学习在空间推理任务中的潜力。然而,与数学推理或代码生成等可以直接验证正确性的任务不同,空间推理缺乏清晰明确的奖励信号。这使得强化学习难以有效地获取空间推理能力,从而使强化学习在视觉空间推理中的应用成为一个具有挑战性的开放性问题。
为了应对这些挑战,目前的研究通常采用两种策略。第一类方法采用两阶段范式,在强化学习微调(RLFT)之前引入监督微调(SFT)阶段,为空间推理提供显式监督。SFT阶段作为训练的预热阶段,而RLFT阶段则赋予模型更强的泛化能力。例如,RoboRefer首先在SFT阶段使用深度信息、空间理解数据和指令调整来训练 VLM,然后在RLFT阶段使用多步推理数据进一步微调VLM。
第二类方法采用单阶段范式,专注于设计针对强化学习训练中空间推理任务的特定奖励函数。考虑到原始图像和翻转图像之间的不变性和差异性,Wang提出一种基于任务的强化学习微调方法,该方法利用空间推理的随机性。将 GRPO 扩展到 Spatial-GRPO,比较原始组和翻转组之间的奖励,并对得分更高的组进行惩罚。SpaceR 显式地构建一个以目标为中心的地图,并基于该地图定义一个奖励函数,从而为空间理解提供量化反馈。在视频空间推理领域,Li将额外的基于 IoU 和基于召回率的显式奖励融入到 GRPO 中。通过在 GRPO 中使用不同的奖励函数组合进行训练,这些方法与使用 SFT 训练的变型相比,获得了更好的性能和泛化能力。
05 推理方法
视觉空间推理(VSR)要求视觉-语言模型(VLM)执行一系列步骤,例如场景理解、目标定位以及各种形式的推理,包括关系推理和轨迹推理。因此,引入中间步骤(例如,构建场景地图和整合多模态特征)可以有效地增强视觉和空间能力。为了提供清晰的分类,本文根据增强信号的来源对现有方法进行分类。
5.1 内部增强
内部增强是指利用大语言模型(LLM)中固有的预训练世界知识,而无需注入额外的外部知识。根据增强目标,将其分为三类。
-
多模态思维链(CoT)
引导大语言模型执行多个语言推理步骤已被证明是有效的。受此启发,多模态思维链已被引入VSR任务,从而实现对视觉和文本空间的联合推理,并在中间推理过程中增强空间感知能力。
为了引出并增强推理步骤,先前的研究提出将推理的中间步骤可视化。例如,Wu提示预训练的 VLM 分别生成推理轨迹 z_1....i 和空间可视化结果v_1....i。受ReAct的启发,Yao提出同时生成中间空间可视化和推理轨迹。两种方法都旨在使推理步骤可解释。
为了解决空间CoT缺乏中间监督的问题,视觉COT收集一个数据集,该数据集包含详细的空间推理步骤和感兴趣区域(RoI)的边框,作为视觉COT监督的真实值。基于该数据集,可以训练视觉-语言模型(VLM)从RoI中提取视觉 tokens,并根据真实值的推理链,基于RoI和整个输入来增强推理步骤。这种设计使得模型能够在空间推理步骤中动态地关注相关区域。
-
场景表示
受海马体在情境记忆中的核心作用[170]的启发,一些方法[31]、[171]提出生成空间的内部表示,并基于这些表示进行推理。给定一个视频输入和一个问题,Yang[31]首先构建一个认知图,其以网格格式表示物体的中心位置。然后,利用预测的地图来回答问题,从而在局部距离觉察方面取得稳健的结果。类似地,在具身任务中探索场景时,强大的内部表征对于维护过去和当前的观察结果也很有用。例如,一些研究[172]、[173]采用3D体素作为内部场景表征,首先更新其占用情况和探索状态。之后,将体素投影到2D语义地图上[172]。对于未探索区域,利用该地图预测三个候选方向上的概率,并根据当前观察结果估计是否值得进一步探索。
-
注意重新分配
在推理过程中,视觉注意和文本注意之间存在不平衡。具体而言,图像 tokens 占输入序列的90%,但仅占总注意的10%,导致图像中目标的实际空间布局与文本中的指令先验之间存在错位。为了解决这种不平衡问题,AdaptVis 引入一种动态注意重分配策略,该策略利用输出logits作为指导。当指导信号较弱时,注意分布会趋于平滑,鼓励模型探索更广泛的输入。相反,当指导信号较强时,注意分布会趋于锐化,引导模型专注于关键目标。
5.2 外部增强
外部增强通过补充 VLM 预训练参数之外的知识,使其能够理解不合逻辑或不常见的空间关系。一个典型的方向是使用多智体系统。Marsili设计一个协作系统,其中不同的智体以代码策略的方式进行交互:API生成的智体,首先将查询分解为子问题,而程序合成的智体,接收这些子问题并生成代码来解决每个问题。另一个研究方向是检索增强生成(RAG)。例如,Yu检索主客体关系以及其他空间描述的模板,然后通过上下文学习将这些模板集成到推理阶段。
尽管对 VLM 中视觉空间关系推理(VSR)能力的系统性评估已引起广泛关注,但当前的评估基准仍面临诸多挑战。首先,不同的基准测试对任务设置的粒度各不相同,缺乏系统性的框架。其次,任务设置分散在各个基准测试中,难以全面评估VSR能力。
VSR任务设置,分为三个认知层次:基本感知、空间关系推理和空间规划,如图所示。该分类基于推理层次,其中基本感知涉及单个目标或目标类别的属性或状态,空间理解涉及多个目标之间的空间关系,而规划则指在空间约束下寻求令人满意的解决方案。
06 基本感知
当前的视觉语言模型(VLM)通常首先在庞大的文本语料库上进行预训练,其中世界知识中的基本物体概念被表示并关联到一个抽象词汇表中。随后,通过多模态训练,建立起该抽象词汇表与连续视觉表示或离散化图像tokens之间的联系。这一过程赋予了它们基本的视觉问答(VQA)能力。然而,与实现空间智能的目标(即对三维世界进行精细理解)相比,当前的VLM在基础物体感知方面仍然存在不足。这些缺陷尤其体现在对物体属性和状态的感知上(如图所示)。
07 空间关系推理
与基本感知相比,空间理解不仅要求模型被动地感知单个物体或物体类别的属性,还需要理解多个物体之间的关系。此外,根据推理目标是否包含时间维度或视角变化,将空间理解分为静态理解和动态理解,如图所示。
7.1 静态理解
静态理解任务的输入包括一张图像和对应的问题,不涉及时间或视角的变化。这类任务主要包括理解物体之间的空间关系、物体定位、距离测量和空间兼容性推理。
7.2 动态理解
动态理解通常涉及多视角图像或视频等输入,引入时间维度或视角变化。与静态理解相比,动态理解更加复杂多变。其主要任务包括轨迹描述、速度和加速度估计以及空间想象。
08 空间规划
空间规划旨在利用先前对环境的观察结果,制定可行的行动方案并预测未来。与空间感知和理解相比,空间规划更进一步,将静态识别和关系推理转化为动态决策过程。鉴于预测类型的不同,将空间规划分为三类:环境规划、迷宫导航规划和具身规划,如图所示:
8.1 环境规划
环境规划要求 VLM 生成周围环境的空间表征,并对其进行推理。该过程分为两个阶段。第一阶段,VLM 接收一段在环境中行走的视频,并基于该视频构建环境表征。第二阶段,VLM 基于构建的环境表征进行推理。VLM 开始基于环境表征进行推理。根据规划目标的不同,该任务可以分为三种设置:捷径发现、路线追溯和地图草绘。
8.2 迷宫导航规划(Maze navigation planing)
迷宫导航规划涉及在二维网格世界中从起点导航到终点。与一般环境规划相比,迷宫规划具有明确的起点和终点,且环境更为简单。其主要挑战在于多跳推理,同时避开不可通行区域。
该任务涉及四种类型的元素:起点、终点、不可通行点和可通行点。为了在 VLM 中描述这些元素,采用两种描述方式:视觉描述和文本描述。在视觉描述中,元素以图像形式编码,不同的颜色表示不同的元素类型。在文本描述中,元素以ASCII格式编码,不同的字符代表不同的元素类型。
迷宫导航问题通常被表述为多项选择题。根据输入方式的不同,迷宫导航规划可以分为三种设置:
-
仅文本,其中迷宫用 ASCII 码表示; -
仅视觉,其中迷宫用彩色图像表示; -
文本-视觉,其中同时提供 ASCII 码和彩色图像 。
8.3 具身规划
具身规划要求智体利用多模态数据感知周围环境,生成规划并自主采取行动。一般的具身规划任务围绕完成具体目标而设计。例如,在视觉语言导航中,智体需要按照给定的指令到达特定位置,并使用成功率和到目标的平均距离等指标来衡量规划的准确性。相比之下,VSR中的具身规划任务并非实际导航到目标,而是要求视觉-语言模型(VLM)解决多项选择题,每个选项对应一个可能的动作。根据动作空间的不同,VSR中的具身规划包括视觉语言导航和移动操作,两者都以多项选择题的形式呈现。
09 实验部分。
9.1 基准构建
当前 VSR 基准测试存在一些问题,例如缺乏系统全面的任务设计、样本质量低下、部分样本缺乏人工标注的真实标签以及任务比例不足。为了应对这些挑战,对现有的开源 VSR 基准测试进行调研,旨在整合高质量且多样化的数据。最终开发 SIBench,一个包含 23 个任务设置、涵盖 3 个认知水平的评估基准测试。下表对比现有基准测试与 SIBench。
质量。在数据质量保证过程中,优先选择带有人工标注的数据集。例如,当需要在同一任务中使用人工标注数据还是模型生成的数据时,始终选择前者。只有在没有人工标注测试数据的情况下,才会考虑使用经过人工审核的半自动标注数据。此外,还会过滤掉由表情符号和文本组成的“图像”,以确保空间信息来源于真实的视觉输入。
多样性。为了构建一个全面的评估数据集,研究 20 多个开源基准测试,并将它们归纳为 23 个高级任务类别。这些类别涵盖三个认知层次:基本感知、空间理解和规划。对于每个任务类别,力求增强测试数据的多样性。例如,对于物体尺寸估计,数据来源于三个不同的基准测试:SPHERE-VLM [186]、VSI-Bench [31] 和 STI-Bench [195]。测试数据包含三种输入格式:单幅图像、多视角图像和视频数据。问题以三种形式呈现:选择题、判断题和视频数据。有关 SIBench 的详细信息,如下图参考。
尽管 VLM 在多模态理解方面取得显著进展,但在复杂的 VSR 方面仍面临严峻挑战。这些挑战限制了它们在基准测试中的性能,并阻碍了它们在机器人和自动驾驶等领域的实际部署。基于对现有模型的评估,这些挑战归纳为以下四个主要方面(如图所示):
-
基础感知能力有限。 -
缺乏精确和量化能力。 -
空间想象和三维重建能力不足。 -
动态时间推理和跨视角推理能力不足。
潜在的求解方法如下三个:
-
构建更高质量、更多样化的训练数据。 -
在预训练阶段融入三维感知和细粒度感知任务。 -
迈向先进的统一时空架构。
公众号后台回复“数据集”获取100+深度学习各方向资源整理
极市干货

点击阅读原文进入CV社区
收获更多技术干货

