大数跨境
0
0

浙大等新工作LiDAR-VGGT:让VGGT的彩色密集重建与LiDAR的几何精度真正结合起来

浙大等新工作LiDAR-VGGT:让VGGT的彩色密集重建与LiDAR的几何精度真正结合起来 计算机视觉life
2025-11-26
3
导读:统一稠密视觉与精确几何

点击“计算机视觉life”,选择“星标”

机器人AI干货第一时间送达

以下文章转载自深蓝AI

导读

在机器人三维重建的世界里,“看得清”和“量得准”从来是一对难题。

相机能捕捉颜色细节,却没有尺度;LiDAR能测出精确几何,却往往稀疏。

过去的LiDAR-Inertial-Visual Odometry(LIVO)系统靠多传感器耦合来拼凑出完整地图,但它们对外参和时间同步极度敏感;而新兴的视觉大模型 VGGT 虽能直接从图像生成高密度点云,却缺乏真实世界的尺度感。

这一次,浙江大学、微分智飞、国防科技大学联合提出 LiDAR-VGGT——一个“粗到细”跨模态融合框架,让VGGT的彩色密集重建与LiDAR的几何精度真正结合起来,实现既密集又具真实尺度的三维重建该工作第一作者为微分智飞算法实习生)。

在多个大规模数据集上,它首次让“看得真”与“量得准”在同一幅点云中共存展示了在大规模三维重建中同时保持密度与尺度一致性的可行方向

图1|为什么需要 LiDAR-VGGT?(a)(b) 是 FAST-LIO2 和 FAST-LIVO2 的点云结果——稀疏、带孔洞;(c) 是 VGGT 生成的高密度点云,但缺乏真实尺度;(d) 是本文提出的 LiDAR-VGGT:在 LiDAR 引导下生成更均匀、更具度量尺度感的彩色点云©️【深蓝AI】编译

论文出处:arXiv2025

论文标题:LiDAR-VGGT: Cross-Modal Coarse-to-Fine Fusion for Globally Consistent and Metric-Scale Dense Mapping

论文作者:Lijie Wang, Lianjie Guo, Ziyi Xu, Qianhao Wang, Fei Gao, Xieyuanli Chen

论文链接:https://arxiv.org/pdf/2511.01186



1
跨模态的“粗到细”拼图

团队把整个系统分成了两个阶段:预融合(Pre-Fusion)与后融合(Post-Fusion)

在预融合阶段,LiDAR惯性里程计(LIO)的位姿被用来修正VGGT的预测姿态,通过尺度RANSAC线性验证机制,消除了由于相机运动轨迹近线性而造成的旋转误差。这一过程让VGGT生成的局部点云初步具备了真实世界的尺度

接着进入后融合阶段,研究者设计了增强型跨模态Sim(3)注册。它利用LiDAR点云作为几何锚点,通过边界框约束抑制尺度漂移,并在Pose Graph Optimization中全局优化各子序列之间的配准关系,从而提升整体一致性

最终,系统输出的是一张密集且在全局范围内基本保持尺度一致的彩色点云地图

图2|LiDAR-VGGT 系统架构系统输入来自 IMU、LiDAR 与相机的多模态数据,通过“粗到细”双阶段过程完成融合。预融合模块利用 LiDAR-Inertial-Odometry 修正 VGGT 姿态、建立初步尺度;后融合模块再通过增强型跨模态 Sim(3) 注册与全局图优化,得到全局一致、具真实尺度的密集重建结果©️【深蓝AI】编译

2
技术亮点

 线性验证与尺度RANSAC:让“虚拟相机”落地真实世界

传统的VGGT虽然能直接从图像预测深度,但生成的点云并没有实际尺度。LiDAR-VGGT通过引入线性度验证(Linearity Validation)检测运动轨迹是否退化,当相机路径接近直线、旋转约束不足时,会自动触发旋转校正

随后,系统利用尺度RANSAC在多个序列之间筛选稳定的尺度估计,将高置信度的结果作为全局尺度传播依据。

这一组合机制在实验中提升了VGGT尺度对齐的稳定性,初步验证了恢复真实度量尺度的可行性

图3|尺度修正机制(a) 当 LIO 轨迹近线性时,直接配准会导致尺度错误;(b) 经过线性度验证与旋转校正后,算法能恢复接近真实值的准确尺度©️【深蓝AI】编译

 边界框正则化Sim(3)注册:跨模态对齐更稳更准

由于LiDAR与相机视场差异显著,直接做Sim(3)对齐容易出现尺度漂移。研究者提出的边界框约束正则化项会自动根据点云包围盒大小与点数调节约束强度,使优化不再“过度拉伸”或“压缩”。通过在优化目标中加入约束项 ,系统在每次迭代中都会对比当前尺度与初始估计之间的偏差,自动收敛到合理范围。结果表明,该策略在多子序列融合中表现出更好的稳定性,并在大场景中有效降低了对齐误差

图4|全局位姿图优化结构系统以首个序列的第一帧为世界坐标基准,结合每个序列内外的约束关系,实现全局一致的姿态优化©️【深蓝AI】编译

 全新的彩色点云评估体系:让“看起来好”变成可量化指标

以往的重建方法只关注几何精度、渲染质量等,没有将几何和颜色联合评价,也忽略了彩色信息的真实性。

LiDAR-VGGT团队提出了四个全新指标:颜色距离(CD)、颜色保真度(CF)、局部颜色召回率(LCR)与颜色一致性得分(CCS)。

这些指标首次从色差、还原度与局部连贯性三个维度评估彩色点云质量,让“视觉美观”有了科学度量。

在五个公开数据集上,该方法在部分指标上取得了更优结果,说明其在色彩还原与局部一致性方面具有潜力

5在所有四个指标(CD、CF、LCR、CCS)上,LiDAR-VGGT 均取得最佳表现,证明其色彩还原与局部一致性更接近真实场景©️【深蓝AI】编译

3
实验与表现

在MARS-LVIG、MUN FRL及自采数据集上,LiDAR-VGGT 展示出在多模态重建场景下的可行性。在几何精度方面,平均Chamfer距离仅数米,ICP重叠率最高达91%表现出较好的全局一致性趋势

6在五个数据集上,LiDAR-VGGT 在 Chamfer 距离、ICP 重叠率与 Wasserstein 距离等指标上取得较好表现©️【深蓝AI】编译

在色彩表现上,颜色距离指标CD明显下降,保真度CF提升至15.8 dB,重建出的街景与航拍场景整体色彩更连贯、边缘更清晰

7LiDAR-VGGT 在公里级航拍场景中重建出密集、平滑且具真实尺度的点云,局部细节依然清晰连贯©️【深蓝AI】编译

更关键的是,即便在外参不精确或时间不同步的情况下(如TechnologyPark数据集),系统仍能生成较为清晰的点云,表现出一定鲁棒性。

8与 FAST-LIVO2 的对比(a)(b) 为 MUN-FRL 数据集结果,(c)(d) 为自采 TechnologyPark 数据集结果。在外参不精确或时间不同步的情况下,FAST-LIVO2 点云模糊稀疏,而 LiDAR-VGGT 仍能生成更致密、更锐利、更干净的重建结果©️【深蓝AI】编译

4
总结

LiDAR-VGGT让一个长期存在的落差被填平:它初步实现了“语义清晰的视觉模型”与“度量精确的几何传感”的结合。

这项工作不仅是一次跨模态融合的大胆尝试,也为未来具身智能中的世界建模提供了思路——让机器人既能理解场景,又能准确地“丈量”世界。

你觉得,下一步若让这类系统直接在端到端Transformer中融合LiDAR,会不会让机器人获得真正的“空间常识”?

推荐阅读

实习/校招/社招:机器人硬件/研发/导航/软件工程师
小六的机器人AI圈
为机器人AI行业从业者提供从入门、学习、交流、求职、线下链接、合作、创业、行业内幕、咨询、答疑等一系列的服务。快人一步,步步领先!已沉淀6年,星球内部资料包括秘制视频课程、独家大咖采访及经验、项目对接、星主独家思考、同城线下交流会、求职招聘&笔面试题、学习打卡挑战、小组学习、最新前沿论文分享等等.
    


详细介绍!超远距EDU-SCAN三维激光雷达扫描仪,为开放生态而生!

重磅发布!解锁百米高空无人机测绘!

重磅发布!2分钟重建百米高楼!

重磅发布!助力机器狗SLAM、重建三维世界!

SLAM挑战!EDU-SCAN清晰还原室内超大电子屏

SLAM挑战 ! 9分钟重建万

平地下停车场

这款科研神器丝滑复现最强SLAM:Fast-LIVO2!

三维激光扫描仪全国线下产品试用!

车载扫街,效果实测!

激光雷达+视觉的3D高斯泼溅,相比纯视觉的方案有什么优势?


           
三维空间扫描仪化身机器人感知定位利器!
用于机器人自主定位导航、实景三维重建!
              
扫描仪+机器人,实时定位建图超简单!
隧道低纹理大摆锤,暴力SLAM!

暴力升级!暗黑隧道极限测试SLAM!
效果哇塞!3D高斯泼溅来实景重建公园!
全面启动!全国线下试用报名!
MetaCam EDU 产品功能及细节详细介绍
MetaCam EDU 实机展示和操作

基于MetaCam EDU的二次开发流程及说明

SLAM挑战:上下天桥绕一圈、定位建图准确完美回环无漂移

SLAM挑战:多楼层、720°旋转楼梯、狭窄玻璃白墙过道

三维空间扫描仪,轻松重建小树林

空间定位建图挑战:长走廊、白墙、玻璃、反光等,会成功吗

三维空间扫描仪,轻松重建小树林

如何高效率重建古建筑?

SLAM挑战:有光无光切换,自由穿梭小黑屋!

SLAM暴力测试:弱光暗光、长走廊、动态场景、天旋地转

如何快速让机器人具备SLAM能力?

扫描仪+转换底座应用介绍

3天爆改机器狗!

Image

Image


【声明】内容源于网络
0
0
计算机视觉life
聚焦计算机视觉、机器人SLAM、自动驾驶、AR领域核心技术。系统学习教程官网cvlife.net
内容 3940
粉丝 0
计算机视觉life 聚焦计算机视觉、机器人SLAM、自动驾驶、AR领域核心技术。系统学习教程官网cvlife.net
总阅读728
粉丝0
内容3.9k