极市导读
上海 AI Lab 等团队提出 Spatial-SSRL,让大模型自玩 5 种空间小游戏就能学深度/方位,零人工标注在 7 大基准平均涨 4.63%,通用 VQA 不降反升。>>加入极市CV技术交流群,走在计算机视觉的最前沿
最近,来自上海人工智能实验室、上海交通大学、香港中文大学和Shanghai Innovation Institute的研究者们,共同推出了一篇名为《Spatial-SSRL: Enhancing Spatial Understanding via Self-Supervised Reinforcement Learning》的论文。
这篇论文关注的是一个当前大模型领域的痛点:虽然大型视觉语言模型(LVLM)在很多任务上表现惊艳,但一碰到需要精确空间理解的问题,比如判断物体的位置、方向和远近关系,它们就常常会“犯迷糊”。
为了解决这个问题,研究者们提出了一个名为Spatial-SSRL的全新训练范式。SSRL是“Self-Supervised Reinforcement Learning”的缩写,意为“自监督强化学习”。简单来说,就是让模型在没有人工标注的情况下,自己给自己出题、自己学习,通过类似“左右互搏”的方式,不断提升自己的空间感。实验证明,这个方法相当有效,在7个空间理解基准测试中,给模型带来了最高**4.63%**的平均准确率提升。
-
论文: Spatial-SSRL: Enhancing Spatial Understanding via Self-Supervised Reinforcement Learning -
论文地址: https://arxiv.org/abs/2510.27606 -
代码仓库: https://github.com/InternLM/Spatial-SSRL -
项目主页: https://huggingface.co/internlm/Spatial-SSRL-7B -
数据集: https://huggingface.co/datasets/internlm/Spatial-SSRL-81k
01 LVLM的空间感难题与现有方法的局限
想象一下,你让一个AI看一张照片,然后问它:“照片里的椅子在桌子的左前方还是右后方?” 这个问题看似简单,但对目前的LVLM来说却是个不小的挑战。它们或许能识别出椅子和桌子,但要精确理解它们之间的空间排布,就显得力不从心了。
以往,提升模型空间感的方法主要有两种:一种是监督微调(SFT),另一种是基于可验证奖励的强化学习(RLVR)。但这两种方法都有个共同的缺点——贵!它们要么需要大量的人工标注数据,要么依赖专业的模拟器或工具来提供“正确答案”,这极大地限制了它们的应用规模和成本效益。
上图直观地展示了传统方法(a)与Spatial-SSRL(b)的区别。传统方法依赖昂贵的外部监督,而Spatial-SSRL则巧妙地从图像自身挖掘监督信号,实现了一个可扩展、轻量级、低成本的训练流程。
02 Spatial-SSRL:五大自监督任务“左右互搏”
那么,Spatial-SSRL具体是怎么做到“自监督”的呢?奥秘就在于它设计的五个“ pretext tasks ”(预设任务)。这些任务都是模型可以自己跟自己玩的游戏,并且答案是天然可知、无需人工判断的。
整个流程如上图所示,主要分为两步:
第一步:自监督数据构建
研究者们从普通的RGB图像或带有深度信息的RGB-D图像中,自动构建了五种考验空间理解能力的任务,总共生成了81k的训练数据。
-
打乱图块重排 (Shuffled Patch Reordering): 把一张图切成几块,打乱顺序,让模型把它们恢复原状。这考验了模型对物体整体结构的2D理解。 -
翻转图块识别 (Flipped Patch Recognition): 随机翻转图像中的某个图块,让模型判断这个图块是否被翻转了。这能增强模型对局部方向性的感知。 -
裁剪图块修复 (Cropped Patch Inpainting): 挖掉图像的一块,然后提供几个选项(包括正确的那一块),让模型“完形填空”。 -
区域深度排序 (Regional Depth Ordering): 对于RGB-D图像,随机选两个区域,让模型判断哪个区域离镜头更近。这直接训练了模型的3D深度感知能力。 -
相对3D位置预测 (Relative 3D Position Prediction): 选取两个区域,让模型描述一个区域在另一个区域的哪个方位(如左前、右后等)。这对于复杂的3D场景理解至关重要。
第二步:强化学习训练
数据准备好后,就进入了强化学习训练阶段。模型针对上述任务给出自己的答案,如果答对了,就给予一个“奖励”;答错了,就相当于一个“惩罚”。通过不断试错和优化,模型会逐渐学会如何正确地回答这些空间问题。这里,研究者采用了组相对策略优化(Group Relative Policy Optimization, GRPO)算法来高效地进行优化。
03 实验效果:空间感和通用能力双提升
研究者们在7个主流的空间理解能力评测基准上,将Spatial-SSRL训练后的模型与原始的Qwen2.5-VL基线模型进行了对比。
从上表可以看到,无论是在3B还是7B参数规模的模型上,Spatial-SSRL都带来了显著的性能提升。特别是在7B模型上,平均准确率提升了**3.89%,在3B模型上更是达到了4.63%**。这证明了这种自监督强化学习范式的有效性。
一个大家可能会关心的问题是:专注于空间能力训练,会不会让模型在其他方面的“通用视听能力”下降?研究者们也考虑到了这一点,并在多个通用视觉问答(VQA)、OCR和图表理解等基准上进行了测试。
结果如上表所示,经过Spatial-SSRL训练后,模型在通用能力上的表现基本保持稳定,甚至在某些项上还有轻微提升。这说明Spatial-SSRL在增强空间智能的同时,很好地保持了模型的通用性,没有出现“偏科”现象。
最后,消融实验进一步探究了五个自监督任务各自的贡献。
结果表明,每个任务都对最终的性能有所贡献,尤其是结合了2D和3D信息的任务组合,能够最大化地提升模型的空间理解能力。
小编觉得,这项工作最大的亮点在于,它证明了我们并不总是需要昂贵的人工标注数据来训练一个更强的AI模型。通过巧妙地设计自监督任务,完全可以从现有的海量无标注数据中挖掘出宝贵的监督信号,为模型能力的提升开辟了一条低成本、可扩展的道路。
公众号后台回复“数据集”获取100+深度学习各方向资源整理
极市干货

点击阅读原文进入CV社区
收获更多技术干货

