大数跨境
0
0

ICCV'25开源 | 无需任何标注!NVIDIA新作LongSplat:从任意拍摄的长视频重建3D高斯!

ICCV'25开源 | 无需任何标注!NVIDIA新作LongSplat:从任意拍摄的长视频重建3D高斯! 极市平台
2025-08-25
2
↑ 点击蓝字 关注极市平台
来源丨3D视觉工坊
编辑丨极市平台

极市导读

 

扔掉 COLMAP 与人工标注,NVIDIA 的 LongSplat 首次让“随手拍的超长视频”也能一键变成高保真 3D 场景——128K 帧不漂移、显存砍半,ICCV’25 开源即巅峰。 >>加入极市CV技术交流群,走在计算机视觉的最前沿

0. 论文信息

标题:LongSplat: Robust Unposed 3D Gaussian Splatting for Casual Long Videos

作者:Chin-Yang Lin, Cheng Sun, Fu-En Yang, Min-Hung Chen, Yen-Yu Lin, Yu-Lun Liu

机构:National Yang Ming Chiao Tung University、NVIDIA

原文链接:https://arxiv.org/abs/2508.14041

代码链接:https://linjohnss.github.io/longsplat/

1. 导读

LongSplat解决了从随意捕获的长视频中合成新颖视图(NVS)的关键挑战,这些视频的特点是不规则的相机运动、未知的相机姿态和广阔的场景。当前方法常常受到姿态漂移、不准确的几何初始化以及严重的内存限制的影响。为了解决这些问题,我们引入了LongSplat,一个健壮的无姿态3D高斯撒播框架,其特点包括:(1)增量联合优化,同时优化相机姿态和3D高斯分布,以避免局部最小值并确保全局一致性;(2)一个利用学习到的3D先验的健壮姿态估计模块;以及(3)一个高效的八叉树锚点形成机制,该机制基于空间密度将密集的点云转换为锚点。在具有挑战性的基准测试上的广泛实验表明,LongSplat取得了最先进的成果,与先前的方法相比,显著提高了渲染质量、姿态精度和计算效率。

2. 效果展示

LongSplat能够在未提供相机姿态的情况下,从随意拍摄的长视频中稳健地生成新颖视图。我们的方法同时优化相机姿态和3D高斯散点映射,即使在具有挑战性的条件下也能产生准确且视觉上连贯的重建效果。

3. 引言

高质量的三维重建与新视角合成(NVS)是虚拟现实、增强现实、虚拟旅游和文化遗产保护等应用的核心技术。它们在视频编辑任务中也发挥着关键作用,例如稳像处理、视觉特效制作,以及房地产或行人级导航的数字测绘。随着智能手机和运动相机的普及,随意拍摄的视频已成为重要的三维内容来源。与专业采集的数据集不同,这类随意拍摄的视频具有挑战性特征:不规则的相机轨迹、长达数百甚至数千帧的长序列,以及缺乏可靠的相机位姿或精确的几何先验信息。

针对随意拍摄视频的新视角合成(NVS)任务,存在两个关键挑战:扩展轨迹上的鲁棒相机位姿估计,以及大规模场景的高效表征。传统方法依赖运动恢复结构(SfM)预处理提供的精确位姿,但如图2所示,COLMAP等流水线在随意拍摄场景中经常失效。无需COLMAP的方法往往面临严重的内存限制,制约了其在大规模场景中的有效性。类似地,LocalRF等方法在复杂相机轨迹下表现不佳,导致重建结果碎片化。像MASt3R这样的基础模型虽然能提供快速的初始位姿估计,但在长视频中会出现不准确和漂移现象,严重影响重建质量。

为解决这些限制,我们提出LongSplat——一种专为随意拍摄长视频设计的鲁棒非定位三维高斯溅射(3DGS)框架。LongSplat无需依赖提供的相机位姿即可实现准确的新视角合成。该框架突破传统流水线,通过统一框架联合优化相机位姿和三维高斯溅射模型。它整合了基于对应关系的位姿估计模块与三维几何及光度精修机制,即使在大规模非结构化相机运动下也能提升位姿精度。此外,通过基于空间密度的密集点云转换锚点策略,其高效八叉树锚点生成机制显著降低内存占用,同时保留场景的细节结构。这些组件通过增量式联合优化策略协同工作,避免局部极小值并确保长序列间的全局几何一致性。

在包含Tanks and Temples、Free和Hike等挑战性数据集上的大量实验表明,LongSplat持续优于现有方法,显著提升了渲染质量和位姿精度。如图2所示,相比传统方法,LongSplat能生成更清晰、更连贯的重建结果,有效解决了位姿漂移和内存限制问题,显著推进了该领域的技术水平。

4. 主要贡献

本研究的主要贡献包括:

• 一种增量式联合优化方法,实现相机位姿与三维高斯溅射模型的同步重建,减少局部极小值并确保全局一致性。

• 基于学习三维先验的鲁棒位姿估计模块,实现精确的相机位姿估计。

• 自适应八叉树锚点生成策略,在保持重建质量的同时大幅降低内存占用。

5. 方法

LongSplat通过基于八叉树锚定三维高斯溅射的完全增量式流水线,重建具有未知相机位姿和非约束轨迹的长视频序列。该过程始于八叉树锚点生成阶段,将每帧的密集点云结构化为自适应表征。随后,利用基于对应关系的初始化和光度对齐机制估计并精修相机位姿。最终,重建过程在局部优化与全局精修之间交替进行:局部优化更新可见性自适应窗口内的三维高斯,全局精修确保长期一致性。这种设计使LongSplat能够鲁棒地处理长距离非约束轨迹,同时适应场景复杂度并最小化漂移。

6. 实验结果

在挑战性的Free数据集上评估LongSplat,如表1和图7所示,其重建质量显著优于其他方法。CF-3DGS等竞争方法常面临内存不足(OOM)问题,而LocalRF会产生碎片化几何结构和位姿漂移。尽管MASt3R+Scaffold-GS避免了OOM错误,但MASt3R不准确的全局位姿估计导致渲染模糊和结构失真。定量分析(表2)和定性展示(图8)均表明,我们的方法持续实现更低的位姿误差。

7. 总结 & 局限性

我们提出LongSplat——一种针对随意拍摄长视频的鲁棒非定位三维高斯溅射框架。该框架整合了增量式联合优化、鲁棒跟踪模块和自适应八叉树锚点机制,显著提升了位姿精度、重建质量和内存效率。大量实验证实,LongSplat持续优于现有先进方法。未来工作将探索动态场景处理和增强位姿估计的鲁棒性。

LongSplat与其他非定位重建方法共享常见限制,假设场景静态且相机内参固定,因此不适用于动态物体或变焦距场景。

对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~

本文仅做学术分享,如有侵权,请联系删文。


公众号后台回复“数据集”获取100+深度学习各方向资源整理

极市干货

技术专栏:多模态大模型超详细解读专栏搞懂Tranformer系列大视觉模型 (LVM) 解读扩散模型系列极市直播
技术综述:小目标检测那点事大模型面试八股含答案万字长文!人体姿态估计(HPE)入门教程

点击阅读原文进入CV社区

收获更多技术干货


【声明】内容源于网络
0
0
极市平台
为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
内容 8155
粉丝 0
极市平台 为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
总阅读919
粉丝0
内容8.2k