大数跨境
0
0

字节开源DA3:单个Transformer搞定任意视图3D重建!超越先前SOTA 35.7%

字节开源DA3:单个Transformer搞定任意视图3D重建!超越先前SOTA 35.7% 极市平台
2025-11-19
0
↑ 点击蓝字 关注极市平台
作者丨深蓝AI
来源丨深蓝AI
编辑丨极市平台

极市导读

 

字节Seed提出Depth Anything 3:单Transformer输出“深度+射线”即完成任意视角3D重建,无需位姿即可在5大数据集刷新相机定位与几何精度,Base版126 FPS,接入3DGS零微调胜SOTA。>>加入极市CV技术交流群,走在计算机视觉的最前沿

经过一年多的探索,字节Seed康炳易团队推出了新一代模型Depth Anything 3(DA3),将单目深度估计扩展到了任何视角场景——只用一个普通Transformer就可以搞定任意视图3D重建!

DA3 可以在有无相机位姿的情况下,从任意数量的图像中恢复出空间一致的几何结构。这一“极简架构”不仅让多视角重建更轻巧,还让单目深度估计精度超越前代DA2

在团队全新打造的视觉几何基准上横扫所有任务,相机定位精度平均提升35.7%,几何重建准确率上涨23.6%。DA3 效果如何?先来看几段直观演示。

视频重建

DA3 可以从任意数量的视图中恢复视觉空间,涵盖从单视图到多视图的范围。此演示展示了 DA3 从复杂视频中恢复视觉空间的能力。

大规模场景的SLAM

精确的视觉几何估计能够提升SLAM的性能。定量结果表明,在大规模环境下,仅用DA3替换VGGT-Long中的VGGT(DA3-Long)就能显著降低漂移,其效果甚至优于需要48小时以上才能完成的COLMAP。

前馈三维高斯估计

通过冻结整个主干网络并训练 DPT 头来预测 3DGS 参数,我们的模型实现了非常强大且具有很强泛化能力的新颖视图合成能力。

基于多摄像头的空间感知

给定车辆不同视角的多张图像(即使没有重叠),DA3 可以估计稳定且可融合的深度图,从而增强自动驾驶车辆对环境的理解。

  • 论文标题:Depth Anything 3:Recovering the Visual Space from Any Views
  • 论文作者:Haotong Lin, Sili Chen, Jun Hao Liew, Donny Y. Chen, Zhenyu Li, Guang Shi,Jiashi Feng, Bingyi Kang
  • 论文链接:https://arxiv.org/pdf/2511.10647
  • 项目主页:depth-anything-3.github.io

01 从“多任务混战”到“一次性理解空间”

传统的3D视觉模型喜欢拆任务:深度估计、相机姿态、结构重建……各做各的,架构复杂又难泛化。Depth Anything 3反其道而行,它问了两个根本问题:

“能不能只预测最少的量?能不能只用一个Transformer?”

答案是肯定的。研究者发现,只要预测深度图(Depth)和射线图(Ray Map)这两种信号,就足以同时捕捉场景结构与相机运动。他们让每个像素都拥有自己的射线向量(包括起点和方向),再与深度结合即可重建出完整的三维点云——这就是他们称之为“Depth–Ray表示”的极简方案。

架构上,DA3采用单一DINOv2 Transformer作为骨干,不再堆叠多模块,而是通过输入自适应的跨视角注意力机制(Cross-view Self-Attention)在不同图像间动态交换信息。最终的双分支DPT头(Dual-DPT Head)则同时输出深度与射线,让模型学会“既看清远近,又看懂方向”。

图1|任意视角下的空间重建:无论输入几张图片、是否提供相机位姿,Depth Anything 3 都能还原出一致的三维空间,生成精准的深度图与射线图,进一步融合成高保真点云与3D高斯几何。在多视角几何与姿态精度上全面超越VGGT;在单目输入下,也超越前作Depth Anything 2,并保持相同的细节与鲁棒性
图1|任意视角下的空间重建:无论输入几张图片、是否提供相机位姿,Depth Anything 3 都能还原出一致的三维空间,生成精准的深度图与射线图,进一步融合成高保真点云与3D高斯几何。在多视角几何与姿态精度上全面超越VGGT;在单目输入下,也超越前作Depth Anything 2,并保持相同的细节与鲁棒性

02 技术亮点

2.1 极简统一:Depth–Ray 表示

传统模型需要分别预测深度、相机姿态甚至点云,而DA3只保留“深度+射线”两个目标。这不仅减少任务耦合,还天然保证几何一致性。论文实验表明,这种表示在姿态精度上比点云或多目标训练高出近一倍,并能直接生成高质量点云。

图2|DA3 的整体流程:模型仅使用一个未经修改的 DINOv2 Transformer 作为主干,通过输入自适应的跨视角自注意力机制实现多视角信息交互;最终由 双分支 DPT 头(Dual-DPT Head) 同时预测深度与射线。若提供相机参数,它们会以“相机token”形式注入模型参与所有注意力运算
图2|DA3 的整体流程:模型仅使用一个未经修改的 DINOv2 Transformer 作为主干,通过输入自适应的跨视角自注意力机制实现多视角信息交互;最终由 双分支 DPT 头(Dual-DPT Head) 同时预测深度与射线。若提供相机参数,它们会以“相机token”形式注入模型参与所有注意力运算

2.2 单一Transformer:去掉花哨,留下能力

与VGGT那种多阶段、多分支结构不同,DA3证明了“一个标准Transformer就够”。团队在DINOv2上直接加入跨视角注意力,让模型能自动适应任意输入视角——一张图时变单目深度网络,多张图时变多视角重建器。这样的统一设计不仅更快(Base版可达126 FPS),还具备更强的可扩展性。

图3|双分支 DPT 头结构:两个分支共享重组模块以保持特征对齐:一支生成深度图,另一支输出射线图。共享特征空间让模型在重建几何时更稳定、更精准
图3|双分支 DPT 头结构:两个分支共享重组模块以保持特征对齐:一支生成深度图,另一支输出射线图。共享特征空间让模型在重建几何时更稳定、更精准

2.3 教师–学生学习:用合成世界教AI看真实世界

真实数据常常噪声严重。为此,作者训练了一个Teacher模型,专门在大规模合成数据上生成高质量伪标签,然后再用这些伪标签指导DA3学习。

这种“以假带真”的策略让模型在真实场景中依旧能保持几何准确度与细节完整度,同时兼顾室内、户外、物体级别等多种场景。

03 实验与表现

研究团队构建了一个全新的Visual Geometry Benchmark,涵盖ETH3D、ScanNet++、7Scenes等5个数据集,用于统一评测姿态与几何。

图4|在姿态估计任务中,DA3 在各项指标(AUC-3与AUC-30)上均显著领先主流方法。表中前三名分别以颜色区分,可见 DA3 在所有数据集上都取得了新的最优成绩
图4|在姿态估计任务中,DA3 在各项指标(AUC-3与AUC-30)上均显著领先主流方法。表中前三名分别以颜色区分,可见 DA3 在所有数据集上都取得了新的最优成绩
  • 姿态估计:DA3-Giant模型在平均精度上比VGGT高出 35.7%;
  • 几何重建:在所有五个实验场景上取得SOTA;
  • 单目深度估计:在多个基准上超过Depth Anything 2;
  • 运行速度:Base版每秒可处理126帧图像,Small版达到160 FPS。

更令人惊喜的是,研究者进一步将DA3接入Feed-Forward 3D Gaussian Splatting(3DGS)任务,仅需微调一个额外Head,即可生成高保真三维渲染效果,超过所有现有3DGS方法。这意味着一个统一的几何基础模型,正逐渐取代那些臃肿的任务专用网络。

视频2|DA3对于3DGS具备天然的支持性,通过简单的几个步骤即可用DA3生成非常精细的3DGS表示,实现逼真的三维渲染效果

04 总结

Depth Anything 3证明了“极简设计也能通向通用空间智能”:一个Transformer、一个Depth–Ray目标,就能看懂世界的几何。

这项工作不仅刷新了多视角重建的性能记录,也为构建“几何感知的世界模型”奠定基础。未来,当语言模型学会理解空间,视觉模型如DA3学会重建空间,也许通用具身智能的拼图就差最后一块。


公众号后台回复“数据集”获取100+深度学习各方向资源整理


极市干货

技术专栏:多模态大模型超详细解读专栏搞懂Tranformer系列大视觉模型 (LVM) 解读扩散模型系列极市直播
技术综述:小目标检测那点事大模型面试八股含答案万字长文!人体姿态估计(HPE)入门教程

点击阅读原文进入CV社区

收获更多技术干货

【声明】内容源于网络
0
0
极市平台
为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
内容 8155
粉丝 0
极市平台 为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
总阅读919
粉丝0
内容8.2k