大数跨境
0
0

NIPS 2025 | 新标杆!SD-VLM 统一深度融合与精准标注,多空间基准测试登顶 SOTA

NIPS 2025 | 新标杆!SD-VLM 统一深度融合与精准标注,多空间基准测试登顶 SOTA Hello World Model
2025-12-14
0
导读:点击下方名片,获取你的下一个灵感实例。在自动驾驶导航、机器人交互等现实场景中,机器往往需要精准理解物体的尺寸、距离等三维空间信息。

点击下方名片,获取你的下一个灵感实例。

在自动驾驶导航、机器人交互等现实场景中,机器往往需要精准理解物体的尺寸、距离等三维空间信息。然而,当前主流的视觉语言模型(VLM)受限于二维图像输入,在定量空间推理任务中表现不佳。近期,来自上海交通大学等机构的研究团队提出了SD-VLM框架,通过创新的数据集构建和深度编码方法,首次实现了VLM在毫米级空间测量任务上的突破性进展。

论文信息

题目:SD-VLM: Spatial Measuring and Understanding with Depth-Encoded Vision-Language Models

基于深度编码视觉语言模型的空间测量与理解

作者:Pingyi Chen, Yujing Lou, Shen Cao, Jinhui Guo, Lubin Fan, Yue Wu, Lin Yang, Lizhuang Ma, Jieping Ye

源码:https://github.com/cpystan/SD-VLM

为何现有VLM"看不懂"三维空间?

人类能轻松判断"桌子高80厘米"或"两本书相距30厘米",但最先进的VLM面对这类问题时却常常束手无策。这一困境源于两个核心瓶颈:

  1. 数据缺陷:现有空间数据集多关注"前后左右"等定性关系,缺乏精确到毫米级的物理数值标注,导致模型难以学习定量空间概念。
  2. 信息丢失:二维图像是三维场景的平面投影,深度信息的缺失使VLM无法建立真实的空间认知地图。

尽管部分研究尝试引入深度图增强模型,但要么需要复杂的三维数据输入,要么深度信息与图像特征融合效果不佳,始终未能突破性能瓶颈。

MSMU数据集:70万问答对构建空间认知基准

为解决数据匮乏问题,研究团队构建了MSMU(大规模空间测量与理解)数据集,这是目前规模最大的定量空间推理数据集:

  • 数据规模:涵盖2000个真实三维场景、2.5万张图像、7.5万个物体,生成70万问答对和250万个物理数值标注。
  • 任务多样性:包含八大类空间任务,从基础的尺度估计(如"椅子高度")到复杂的参考物体推理(如"以杯子为参考,估算瓶子高度"),甚至包括物体存在性检测以减少模型幻觉。
MSMU数据集任务分布
MSMU数据集任务分布

数据集构建采用创新流程:先从三维点云提取物体空间信息构建场景图,再将三维实例栅格化为二维图像,最后通过人工验证的模板和LLM协作生成高质量问答对。特别设计的MSMU-Bench基准测试集(含1000个未见场景样本),成为评估空间推理能力的黄金标准。

深度位置编码:给VLM装上"深度感知器"

如何高效将深度信息融入现有VLM架构?研究团队提出深度位置编码(DPE) 机制,通过极简设计实现三维空间感知:

  1. 深度图处理:将深度图分割为与图像特征匹配的小块,计算每个块的平均深度值。
  2. 正弦余弦编码:借鉴Transformer位置编码思想,用不同频率的正弦余弦函数将深度值转换为特征嵌入,保留精确的空间距离信息。
  3. 特征融合:直接将深度嵌入与图像特征相加,无需额外网络层,以最小计算成本实现二维到三维感知的跃升。
深度集成方法对比
深度集成方法对比

与其他方法相比,DPE优势显著:

  • 无需修改模型架构,兼容性强
  • 避免增加序列长度,训练效率高
  • 保留深度的连续数值特性,更利于定量推理

SD-VLM整体架构:空间智能的"三驾马车"

SD-VLM的架构设计体现了"简洁高效"的理念,主要由三部分构成:

  1. 视觉编码器:采用CLIP-ViT/14提取图像特征,保持预训练权重冻结以保留通用视觉能力。
  2. 深度编码模块:通过DPE将深度图转换为特征嵌入,与图像特征无缝融合。
  3. 大型语言模型:基于LLaVA-1.5-7B构建,处理融合后的多模态特征并生成回答。
SD-VLM架构图
SD-VLM架构图

推理时,若缺乏真实深度图,可通过Depth-Anything-V2等外部模型生成估计深度,使系统适应各类场景。

实验结果:全面超越现有模型

在MSMU-Bench上的测试显示,SD-VLM以56.31%的成功率大幅领先:

  • 比GPT-4o提升26.91%,比Intern-VL3-78B提升25.56%
  • 在参考物体推理任务中成功率达40%,是第二名的两倍
  • 存在性任务准确率87.23%,显著降低空间幻觉
模型性能对比
模型性能对比

跨数据集评估进一步验证了其泛化能力:

  • Q-Spatial++基准上以56.2%成功率居首
  • SpatialRGPT-Bench的定量任务中达到33.3%,定性任务65.5%
不同深度集成方法性能
不同深度集成方法性能

消融实验表明,DPE对噪声具有强鲁棒性:即使注入显著高斯噪声,性能仅从56.3%降至51.4%,仍远超无深度输入的模型。

结语:开启空间智能新可能

SD-VLM的突破不仅体现在性能提升,更在于其方法论创新:通过精准标注的数据集和轻量级深度编码,在不牺牲通用能力的前提下,为VLM注入了三维空间感知能力。这一成果为机器人交互、AR导航等依赖精确空间理解的应用铺平了道路。

未来,随着三维场景数据的丰富和编码方法的优化,视觉语言模型有望真正理解物理世界的空间规则,实现从"看见"到"感知"的质变。

【声明】内容源于网络
0
0
Hello World Model
欢迎关注。分享大模型相关论文,学习心得。
内容 15
粉丝 0
Hello World Model 欢迎关注。分享大模型相关论文,学习心得。
总阅读9
粉丝0
内容15