大数跨境
0
0

“左右互搏”,提升空间理解!Spatial-SSRL:自监督强化学习让LVLM读懂空间,性能平均提升4.63%

“左右互搏”,提升空间理解!Spatial-SSRL:自监督强化学习让LVLM读懂空间,性能平均提升4.63% 极市平台
2025-11-11
2
↑ 点击蓝字 关注极市平台
作者丨我爱计算机视觉
来源丨我爱计算机视觉
编辑丨极市平台

极市导读

 

上海 AI Lab 等团队提出 Spatial-SSRL,让大模型自玩 5 种空间小游戏就能学深度/方位,零人工标注在 7 大基准平均涨 4.63%,通用 VQA 不降反升。>>加入极市CV技术交流群,走在计算机视觉的最前沿

最近,来自上海人工智能实验室、上海交通大学、香港中文大学和Shanghai Innovation Institute的研究者们,共同推出了一篇名为《Spatial-SSRL: Enhancing Spatial Understanding via Self-Supervised Reinforcement Learning》的论文。

这篇论文关注的是一个当前大模型领域的痛点:虽然大型视觉语言模型(LVLM)在很多任务上表现惊艳,但一碰到需要精确空间理解的问题,比如判断物体的位置、方向和远近关系,它们就常常会“犯迷糊”。

为了解决这个问题,研究者们提出了一个名为Spatial-SSRL的全新训练范式。SSRL是“Self-Supervised Reinforcement Learning”的缩写,意为“自监督强化学习”。简单来说,就是让模型在没有人工标注的情况下,自己给自己出题、自己学习,通过类似“左右互搏”的方式,不断提升自己的空间感。实验证明,这个方法相当有效,在7个空间理解基准测试中,给模型带来了最高**4.63%**的平均准确率提升。

  • 论文: Spatial-SSRL: Enhancing Spatial Understanding via Self-Supervised Reinforcement Learning
  • 论文地址https://arxiv.org/abs/2510.27606
  • 代码仓库https://github.com/InternLM/Spatial-SSRL
  • 项目主页https://huggingface.co/internlm/Spatial-SSRL-7B
  • 数据集https://huggingface.co/datasets/internlm/Spatial-SSRL-81k

01 LVLM的空间感难题与现有方法的局限

想象一下,你让一个AI看一张照片,然后问它:“照片里的椅子在桌子的左前方还是右后方?” 这个问题看似简单,但对目前的LVLM来说却是个不小的挑战。它们或许能识别出椅子和桌子,但要精确理解它们之间的空间排布,就显得力不从心了。

以往,提升模型空间感的方法主要有两种:一种是监督微调(SFT),另一种是基于可验证奖励的强化学习(RLVR)。但这两种方法都有个共同的缺点——贵!它们要么需要大量的人工标注数据,要么依赖专业的模拟器或工具来提供“正确答案”,这极大地限制了它们的应用规模和成本效益。

上图直观地展示了传统方法(a)与Spatial-SSRL(b)的区别。传统方法依赖昂贵的外部监督,而Spatial-SSRL则巧妙地从图像自身挖掘监督信号,实现了一个可扩展、轻量级、低成本的训练流程。

02 Spatial-SSRL:五大自监督任务“左右互搏”

那么,Spatial-SSRL具体是怎么做到“自监督”的呢?奥秘就在于它设计的五个“ pretext tasks ”(预设任务)。这些任务都是模型可以自己跟自己玩的游戏,并且答案是天然可知、无需人工判断的。

整个流程如上图所示,主要分为两步:

第一步:自监督数据构建

研究者们从普通的RGB图像或带有深度信息的RGB-D图像中,自动构建了五种考验空间理解能力的任务,总共生成了81k的训练数据。

  • 打乱图块重排 (Shuffled Patch Reordering): 把一张图切成几块,打乱顺序,让模型把它们恢复原状。这考验了模型对物体整体结构的2D理解。
  • 翻转图块识别 (Flipped Patch Recognition): 随机翻转图像中的某个图块,让模型判断这个图块是否被翻转了。这能增强模型对局部方向性的感知。
  • 裁剪图块修复 (Cropped Patch Inpainting): 挖掉图像的一块,然后提供几个选项(包括正确的那一块),让模型“完形填空”。
  • 区域深度排序 (Regional Depth Ordering): 对于RGB-D图像,随机选两个区域,让模型判断哪个区域离镜头更近。这直接训练了模型的3D深度感知能力。
  • 相对3D位置预测 (Relative 3D Position Prediction): 选取两个区域,让模型描述一个区域在另一个区域的哪个方位(如左前、右后等)。这对于复杂的3D场景理解至关重要。

第二步:强化学习训练

数据准备好后,就进入了强化学习训练阶段。模型针对上述任务给出自己的答案,如果答对了,就给予一个“奖励”;答错了,就相当于一个“惩罚”。通过不断试错和优化,模型会逐渐学会如何正确地回答这些空间问题。这里,研究者采用了组相对策略优化(Group Relative Policy Optimization, GRPO)算法来高效地进行优化。

03 实验效果:空间感和通用能力双提升

研究者们在7个主流的空间理解能力评测基准上,将Spatial-SSRL训练后的模型与原始的Qwen2.5-VL基线模型进行了对比。

从上表可以看到,无论是在3B还是7B参数规模的模型上,Spatial-SSRL都带来了显著的性能提升。特别是在7B模型上,平均准确率提升了**3.89%,在3B模型上更是达到了4.63%**。这证明了这种自监督强化学习范式的有效性。

一个大家可能会关心的问题是:专注于空间能力训练,会不会让模型在其他方面的“通用视听能力”下降?研究者们也考虑到了这一点,并在多个通用视觉问答(VQA)、OCR和图表理解等基准上进行了测试。

结果如上表所示,经过Spatial-SSRL训练后,模型在通用能力上的表现基本保持稳定,甚至在某些项上还有轻微提升。这说明Spatial-SSRL在增强空间智能的同时,很好地保持了模型的通用性,没有出现“偏科”现象。

最后,消融实验进一步探究了五个自监督任务各自的贡献。

结果表明,每个任务都对最终的性能有所贡献,尤其是结合了2D和3D信息的任务组合,能够最大化地提升模型的空间理解能力。

小编觉得,这项工作最大的亮点在于,它证明了我们并不总是需要昂贵的人工标注数据来训练一个更强的AI模型。通过巧妙地设计自监督任务,完全可以从现有的海量无标注数据中挖掘出宝贵的监督信号,为模型能力的提升开辟了一条低成本、可扩展的道路。


公众号后台回复“数据集”获取100+深度学习各方向资源整理


极市干货

技术专栏:多模态大模型超详细解读专栏搞懂Tranformer系列大视觉模型 (LVM) 解读扩散模型系列极市直播
技术综述:小目标检测那点事大模型面试八股含答案万字长文!人体姿态估计(HPE)入门教程

点击阅读原文进入CV社区

收获更多技术干货

【声明】内容源于网络
0
0
极市平台
为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
内容 8155
粉丝 0
极市平台 为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
总阅读919
粉丝0
内容8.2k