极市导读
Meta高级研究员蔡志鹏及其团队近日发布了新一代视觉语言模型研究成果——DepthLM。该方法首次证明,无需修改任何架构或损失函数,视觉语言模型(VLM)就能在像素级三维任务上达到与专业视觉模型相当的水平。这项研究标志着视觉语言模型迈出了通向真实空间理解的重要一步。>>加入极市CV技术交流群,走在计算机视觉的最前沿


论文链接: https://arxiv.org/pdf/2509.25413
代码开源: https://github.com/facebookresearch/DepthLM_Official
模型体验: https://huggingface.co/facebook/DepthLM
01 从“看图说话”到“看图识深度”
视觉语言模型(VLM)在“看图+理解语义”方面已取得巨大成功,但在理解三维几何结构时仍存在明显短板。例如,在绝对深度估计(metric depth estimation)等任务中,即使是最强大的GPT-5或Gemini 2.5 Pro,也无法与专门的视觉模型相媲美。
DepthLM的出现改写了这一格局。蔡志鹏团队发现,VLM并非缺乏深度能力,而是缺少合适的空间提示与统一的视觉尺度。通过在训练和提示阶段引入极小的修改,他们证明了标准VLM同样可以学习精确的三维关系。
02 关键创新:不改架构,也能理解三维
DepthLM的核心突破在于,它完全保留了VLM的原始架构和训练范式(仅依赖文本预测loss),却显著提升了模型的三维理解能力。这得益于三个关键策略:
-
视觉提示(Visual Prompting):在图像上直接标注目标像素位置的小标记,使模型能够“看见”而非“阅读”坐标。
-
内参归一化增强(Intrinsic-Conditioned Augmentation):统一相机内参,消除焦距差异带来的尺度偏移。
-
稀疏监督(Sparse Labeling):每张图仅需1–2个像素标注,仍能训练出高精度深度模型,大幅降低数据成本。
在这些策略下,DepthLM无需额外的密集预测头或复杂损失设计,就能自然地获得像素级深度估计能力。这不仅首次证明了视觉模型依赖的密集预测头,复杂损失,DINO backbone和密集监督信号均不是实现空间感知的必要条件,也使得DepthLM能够自然支持灵活的基于语言的多任务训练,用统一的标准VLM实现各类空间感知任务,无需特别设计专家模型架构。
03 结果:首次让VLM逼近纯视觉专家模型
在Argoverse2、NuScenes、ScanNet++、NYUv2等多项公开数据集上,DepthLM的性能(δ₁ ≈ 0.83+)已与SOTA纯视觉模型相当,显著超越所有现有VLM系统。
更令人惊讶的是,在未使用任何正则化或后处理的情况下,DepthLM生成的深度图更“干净”:在边缘处的“飞点”数量明显少于传统模型,显示出自然的几何一致性。
此外,DepthLM还扩展到五类典型三维任务(如速度、时间、相机姿态估计等),同样表现出卓越的泛化能力。研究团队同步推出了一个名为DepthLMBench的综合基准,用于评估VLM的三维能力。
04 意义:迈向“统一多模态世界模型”
DepthLM的意义不仅在于性能突破,更在于概念上的转变。它证明了理解三维空间不需要专门的网络结构,语言模型本身即可具备空间推理潜力。
这为未来的多模态AI提供了新的方向:
-
更低的标注成本:仅需稀疏标注即可获得几何学习能力;
-
更强的任务通用性:同一个模型可适应深度估计、相机姿态、运动分析等多任务;
-
更广的落地潜力:可直接应用于机器人导航、AR/VR、自动驾驶等需要空间理解的领域。
05 结语
DepthLM的出现,为视觉语言模型开启了“看出深度”的新时代。它让我们看到,语言与视觉的融合不仅能理解语义,也能直觉地感知空间。未来,DepthLM或将成为统一感知与推理框架的关键一步,为通用人工智能的发展奠定新的基石。

公众号后台回复“数据集”获取100+深度学习各方向资源整理
极市干货

点击阅读原文进入CV社区
收获更多技术干货

