“左右互搏”，提升空间理解！Spatial-SSRL：自监督强化学习让LVLM读懂空间，性能平均提升4.63%

极市平台

2025-11-11

↑ 点击蓝字关注极市平台

作者丨我爱计算机视觉

来源丨我爱计算机视觉

编辑丨极市平台

极市导读

上海 AI Lab 等团队提出 Spatial-SSRL，让大模型自玩 5 种空间小游戏就能学深度/方位，零人工标注在 7 大基准平均涨 4.63%，通用 VQA 不降反升。>>加入极市CV技术交流群，走在计算机视觉的最前沿

最近，来自上海人工智能实验室、上海交通大学、香港中文大学和Shanghai Innovation Institute的研究者们，共同推出了一篇名为《Spatial-SSRL: Enhancing Spatial Understanding via Self-Supervised Reinforcement Learning》的论文。

这篇论文关注的是一个当前大模型领域的痛点：虽然大型视觉语言模型（LVLM）在很多任务上表现惊艳，但一碰到需要精确空间理解的问题，比如判断物体的位置、方向和远近关系，它们就常常会“犯迷糊”。

为了解决这个问题，研究者们提出了一个名为Spatial-SSRL的全新训练范式。SSRL是“Self-Supervised Reinforcement Learning”的缩写，意为“自监督强化学习”。简单来说，就是让模型在没有人工标注的情况下，自己给自己出题、自己学习，通过类似“左右互搏”的方式，不断提升自己的空间感。实验证明，这个方法相当有效，在7个空间理解基准测试中，给模型带来了最高**4.63%**的平均准确率提升。

论文: Spatial-SSRL: Enhancing Spatial Understanding via Self-Supervised Reinforcement Learning
论文地址: https://arxiv.org/abs/2510.27606
代码仓库: https://github.com/InternLM/Spatial-SSRL
项目主页: https://huggingface.co/internlm/Spatial-SSRL-7B
数据集: https://huggingface.co/datasets/internlm/Spatial-SSRL-81k

01 LVLM的空间感难题与现有方法的局限

想象一下，你让一个AI看一张照片，然后问它：“照片里的椅子在桌子的左前方还是右后方？” 这个问题看似简单，但对目前的LVLM来说却是个不小的挑战。它们或许能识别出椅子和桌子，但要精确理解它们之间的空间排布，就显得力不从心了。

以往，提升模型空间感的方法主要有两种：一种是监督微调（SFT），另一种是基于可验证奖励的强化学习（RLVR）。但这两种方法都有个共同的缺点——贵！它们要么需要大量的人工标注数据，要么依赖专业的模拟器或工具来提供“正确答案”，这极大地限制了它们的应用规模和成本效益。

上图直观地展示了传统方法（a）与Spatial-SSRL（b）的区别。传统方法依赖昂贵的外部监督，而Spatial-SSRL则巧妙地从图像自身挖掘监督信号，实现了一个可扩展、轻量级、低成本的训练流程。

02 Spatial-SSRL：五大自监督任务“左右互搏”

那么，Spatial-SSRL具体是怎么做到“自监督”的呢？奥秘就在于它设计的五个“ pretext tasks ”（预设任务）。这些任务都是模型可以自己跟自己玩的游戏，并且答案是天然可知、无需人工判断的。

整个流程如上图所示，主要分为两步：

第一步：自监督数据构建

研究者们从普通的RGB图像或带有深度信息的RGB-D图像中，自动构建了五种考验空间理解能力的任务，总共生成了81k的训练数据。

打乱图块重排 (Shuffled Patch Reordering): 把一张图切成几块，打乱顺序，让模型把它们恢复原状。这考验了模型对物体整体结构的2D理解。
翻转图块识别 (Flipped Patch Recognition): 随机翻转图像中的某个图块，让模型判断这个图块是否被翻转了。这能增强模型对局部方向性的感知。
裁剪图块修复 (Cropped Patch Inpainting): 挖掉图像的一块，然后提供几个选项（包括正确的那一块），让模型“完形填空”。
区域深度排序 (Regional Depth Ordering): 对于RGB-D图像，随机选两个区域，让模型判断哪个区域离镜头更近。这直接训练了模型的3D深度感知能力。
相对3D位置预测 (Relative 3D Position Prediction): 选取两个区域，让模型描述一个区域在另一个区域的哪个方位（如左前、右后等）。这对于复杂的3D场景理解至关重要。

第二步：强化学习训练

数据准备好后，就进入了强化学习训练阶段。模型针对上述任务给出自己的答案，如果答对了，就给予一个“奖励”；答错了，就相当于一个“惩罚”。通过不断试错和优化，模型会逐渐学会如何正确地回答这些空间问题。这里，研究者采用了组相对策略优化（Group Relative Policy Optimization, GRPO）算法来高效地进行优化。