

Meta蔡志鹏团队发布DepthLM：让视觉语言模型真正理解三维世界

极市平台

2025-10-13

导读：↑ 点击蓝字关注极市平台编辑丨极市平台极市导读 Meta高级研究员蔡志鹏及其团队近日发布了新一代视觉语言模型

↑ 点击蓝字关注极市平台

编辑丨极市平台

极市导读

Meta高级研究员蔡志鹏及其团队近日发布了新一代视觉语言模型研究成果——DepthLM。该方法首次证明，无需修改任何架构或损失函数，视觉语言模型（VLM）就能在像素级三维任务上达到与专业视觉模型相当的水平。这项研究标志着视觉语言模型迈出了通向真实空间理解的重要一步。>>加入极市CV技术交流群，走在计算机视觉的最前沿

论文链接： https://arxiv.org/pdf/2509.25413

代码开源： https://github.com/facebookresearch/DepthLM_Official

模型体验： https://huggingface.co/facebook/DepthLM

01 从“看图说话”到“看图识深度”

视觉语言模型（VLM）在“看图+理解语义”方面已取得巨大成功，但在理解三维几何结构时仍存在明显短板。例如，在绝对深度估计（metric depth estimation）等任务中，即使是最强大的GPT-5或Gemini 2.5 Pro，也无法与专门的视觉模型相媲美。

DepthLM的出现改写了这一格局。蔡志鹏团队发现，VLM并非缺乏深度能力，而是缺少合适的空间提示与统一的视觉尺度。通过在训练和提示阶段引入极小的修改，他们证明了标准VLM同样可以学习精确的三维关系。

02 关键创新：不改架构，也能理解三维

DepthLM的核心突破在于，它完全保留了VLM的原始架构和训练范式（仅依赖文本预测loss），却显著提升了模型的三维理解能力。这得益于三个关键策略：

视觉提示（Visual Prompting）：在图像上直接标注目标像素位置的小标记，使模型能够“看见”而非“阅读”坐标。
内参归一化增强（Intrinsic-Conditioned Augmentation）：统一相机内参，消除焦距差异带来的尺度偏移。
稀疏监督（Sparse Labeling）：每张图仅需1–2个像素标注，仍能训练出高精度深度模型，大幅降低数据成本。

在这些策略下，DepthLM无需额外的密集预测头或复杂损失设计，就能自然地获得像素级深度估计能力。这不仅首次证明了视觉模型依赖的密集预测头，复杂损失，DINO backbone和密集监督信号均不是实现空间感知的必要条件，也使得DepthLM能够自然支持灵活的基于语言的多任务训练，用统一的标准VLM实现各类空间感知任务，无需特别设计专家模型架构。