点击“计算机视觉life”,选择“星标”
机器人AI干货第一时间送达
它不仅能处理单目/多目视频,还能自动输出相机轨迹、深度图,甚至直接用于机器人导航(VO)和大规模场景重建(SfM),关键是不用针对每个任务单独调试。
文章标题:AMB3R: Accurate Feed-forward Metric-scale 3D Reconstruction with Backend
项目地址:https://hengyiwang.github.io/projects/amber
先看效果:AMB3R能搞定哪些事?
图 1:AMB3R 功能与应用总览
这幅图展示 “视频输入→多任务输出” 全流程:左为单目 / 多目视频(含野外场景、标准数据集),中为 3D 点云重建结果(标注 “下采样至 300 万点可视化”),右延伸出相机姿态估计、深度预测、VO/SfM 等任务,突出 “无需任务微调,无缝扩展” 的核心优势。
这张图一眼就能看出AMB3R的优势:输入成本低(手机视频就行)、输出功能全(覆盖7类3D任务),不管是真实场景还是标准数据集,都能稳定出结果。
VO视频:
为什么以前的3D重建“不好用”?
在AMB3R之前,3D重建主要有两类痛点:
-
传统优化方法(如COLMAP):靠反复迭代优化相机参数和几何结构,精度高但速度慢,没法实时输出,还需要手动调参; -
现代点图模型(如DUSt3R、VGGT):虽然是端到端训练,速度快,但把3D重建当成“2D像素转3D坐标”,没有真正的3D几何推理能力。比如多个像素对应同一个3D点时,模型没法融合这些信息,导致重建结果有“飘点”、没有真实物理尺度(比如不知道桌子到底1米还是2米宽)。
AMB3R的核心突破,就是加了一个“3D后端”,让模型能像人一样“思考空间结构”,既保留端到端的便捷性,又有优化方法的精度。
AMB3R的核心秘诀:前端+后端的“黄金组合”
AMB3R分两部分工作:前端负责从视频里提特征、初猜3D信息,后端负责优化几何、保证尺度精准,两者配合解决了传统方法的痛点。
1. 前端:用VGGT做“初步感知”
前端直接用预训练好的VGGT模型(一种3D基础模型),先从每张视频帧里提取视觉特征,再预测初步的3D点图(像素对应的3D坐标)和相机姿态。
这里有个关键公式,前端会把每张图像编码成特征:
是第t帧的特征,
是输入图像。但此时的3D预测没有真实尺度(比如不知道1个单位对应10厘米还是1米),还需要后端优化。
2. 后端:让3D重建“有尺度、无飘点”
图 2:AMB3R 前端 - 后端架构
这幅图拆解架构细节:左为 VGGT 前端(输出点图与几何特征,标注 “冻结复用预训练权重”),中为后端(稀疏体素网格→空间填充曲线序列化→Transformer 优化),右为特征融合(零卷积注入前端),搭配体素特征计算、序列化公式,体现 “3D 几何推理” 设计。
后端是AMB3R的核心,主要做两件事:
(1)用“稀疏体素”整理3D信息
前端输出的3D点很零散,后端先把它们放进“稀疏体素网格”(类似把空间分成小立方体,只保留有物体的立方体),每个体素的特征是里面所有点的平均:
是第i个体素的特征,
是落在这个体素里的点,
是对应像素的几何特征。这样既减少计算量,又能融合同一空间位置的多视角信息,避免“飘点”。
(2)用Transformer做“3D推理”
体素是3D结构,直接处理不方便,后端用“空间填充曲线”(比如希尔伯特曲线)把3D体素转成1D序列——就像把魔方展开成平面,既保留空间关联性,又能让Transformer高效处理:
是序列化操作,
是Transformer模型,处理后再转回3D体素(
)。最后用K近邻插值把体素特征映射回每个点,融合回前端解码器:
这个过程就像“整理房间”:先把零散的物品(点)放进抽屉(体素),再按规律排序(序列化),检查关联性(Transformer),最后放回原位(插值融合),让3D结构更规整。
3. 关键补充:让重建有“真实尺度”
以前的模型输出的3D坐标是“相对尺度”(比如只知道A比B大,不知道具体多大),AMB3R加了个轻量“尺度头”,专门预测真实物理尺度:
-
训练时:针对每帧图像,预测“中位数深度对应的真实尺度”(比如画面中间物体离相机1.5米); -
推理时:取所有帧的尺度中位数,把重建结果对齐到真实物理空间。
这样输出的3D模型就有了实际意义——比如知道桌子长1.2米、宽0.6米,能直接用于装修设计、机器人导航。
训练:低成本复用预训练权重
AMB3R不用从头训练,而是冻结VGGT前端,只训练后端,大大降低成本(约80个H100 GPU小时)。训练损失主要约束三个目标:
-
:保证预测的深度图和真实值一致; -
:确保3D点图的几何结构准确; -
:让预测的相机姿态符合物理规律。
训练分两阶段:先优化几何结构(给几何损失高权重),再优化纹理细节,避免互相干扰。
实战能力:AMB3R到底有多强?
1. 单目深度预测:零样本也能打
表1说明:对比AMB3R与Ominidata、Depth Anything v2等专门的单目深度模型,在NYUv2、KITTI等5个数据集的关键指标(Rel:相对误差,越低越好;δ₁.₂₅:深度误差在1.25倍内的比例,越高越好),标注AMB3R在NYUv2的Rel=3.0、δ₁.₂₅=98.9%,优于多数模型。
AMB3R没专门训练单目深度任务,却能和专门模型媲美,说明其3D理解能力的通用性。
2. 视觉里程计(VO):机器人导航也能用
表7说明:展示在7Scenes数据集的轨迹误差(ATE RMSE,单位cm),对比伪真值(5.7cm),AMB3R的误差仅2.1cm,标注“超越传统伪真值, novel view合成PSNR相当”。
表8说明:在TUM数据集对比稀疏/稠密VO方法,AMB3R的平均误差3.2cm,比MUSt3R(7.1cm)低一半多,标注“无标定也能高精度跟踪”。
这意味着AMB3R能直接用于机器人、无人机的实时导航,不用提前校准相机。
3. 运动恢复结构(SfM):大规模重建无压力
表12说明:在ETH3D数据集对比COLMAP等优化-based方法,AMB3R的旋转精度(RRA@5)平均98.2%,远超COLMAP的49.0%,标注“无需光束平差(BA)优化”。
表13说明:在Tanks&Temples数据集,AMB3R在复杂场景(如教堂、宫殿)的重建精度远超ACE-Zero,标注“视频输入也能出高质量结果”。
以前需要专业团队几天处理的大规模重建,现在用AMB3R自动就能完成。
实际应用:这些场景都能用
-
室内设计:用手机拍房间,生成带尺度的3D模型,直接测量家具尺寸,规划布局; -
机器人导航:无人机、扫地机器人用AMB3R实时输出轨迹和深度,避免碰撞; -
文化遗产保护:拍文物、古建筑,快速生成3D模型,用于数字化存档; -
AR/VR:拍段街景就能生成VR场景,不用专业建模,降低AR/VR内容制作成本。
总结:3D重建终于“好用又不贵”
AMB3R最核心的价值,是把“高精度”“实时性”“多任务”三个需求捏合到一起:
-
靠“前端+后端”架构,既有端到端的便捷性,又有3D几何推理能力; -
不用专业设备,普通视频就能输入,还能输出真实物理尺度; -
训练成本低,能无缝扩展到VO、SfM等任务,不用重复开发。
未来再优化动态场景处理(比如拍移动的人或车),AMB3R的应用场景会更广。或许用不了多久,每个人都能用手机生成身边场景的3D模型,让3D技术真正走进日常生活。
你觉得这种“拍视频出3D模型”的技术,最先会在哪个场景普及?欢迎在评论区聊聊~
推荐阅读
详细介绍!超远距EDU-SCAN三维激光雷达扫描仪,为开放生态而生!
三维空间扫描仪化身机器人感知定位利器!
用于机器人自主定位导航、实景三维重建!
扫描仪+机器人,实时定位建图超简单!
隧道低纹理大摆锤,暴力SLAM!
暴力升级!暗黑隧道极限测试SLAM!
效果哇塞!3D高斯泼溅来实景重建公园!
全面启动!全国线下试用报名!
MetaCam EDU 产品功能及细节详细介绍
MetaCam EDU 实机展示和操作

