ICCV 2025 Highlight | 彻底告别相机姿态！帝国理工提出SPFSplat：稀疏视图自监督3D高斯溅射新SOTA

极市平台

2025-08-07

↑ 点击蓝字关注极市平台

作者丨我爱计算机视觉

来源丨我爱计算机视觉

编辑丨极市平台

极市导读

帝国理工 SPFSplat 首创完全无 Pose 的自监督 3D 高斯溅射：仅凭 2–3 张无姿态照片，单网络一次前向即同步输出 3D 场景与相机位姿，新视角合成与姿态估计精度全面反超需 Pose 的 SOTA。 >>加入极市CV技术交流群，走在计算机视觉的最前沿

本文介绍一篇来自帝国理工学院的最新研究成果，论文标题为《No Pose at All: Self-Supervised Pose-Free 3D Gaussian Splatting from Sparse Views》。

这项工作提出了一个名为 SPFSplat 的高效框架，专为从稀疏的多视图图像中进行3D高斯溅射（3D Gaussian Splatting）而设计。其最核心的亮点在于，无论是在训练还是推理阶段，完全不需要真实的相机姿态（Pose）信息。该方法在仅使用少量无姿态信息的图像输入下，通过单次前向传播，就能同时预测出场景的3D高斯基元和相机的位姿，实现了高质量的新视图合成和位姿估计，性能超越了现有技术。

论文标题：No Pose at All: Self-Supervised Pose-Free 3D Gaussian Splatting from Sparse Views
作者：Ranran Huang, Krystian Mikolajczyk
机构：帝国理工学院 (Imperial College London)
论文地址：https://arxiv.org/pdf/2508.01171v1
项目主页：https://ranrhuang.github.io/spfsplat/
代码仓库：https://github.com/matchlab-imperial/hypo3d
录用会议: ICCV 2025

研究背景与意义

近年来，以神经辐射场（NeRF）和3D高斯溅射（3DGS）为代表的技术在三维重建和新视图合成（Novel View Synthesis, NVS）领域取得了巨大成功。然而，这些主流方法（Pose-Required Methods）通常严重依赖于一个前提：输入图像必须带有通过运动恢复结构（Structure-from-Motion, SfM）等方法预先计算好的、精确的相机姿态。在现实世界的稀疏视图场景中（例如，只有几张照片），由于图像之间的重叠度低或纹理信息不足，SfM算法往往难以稳定工作，导致姿态估计失败，从而限制了这些技术的实际应用。

为了摆脱对预计算姿态的依赖，研究界开始探索“无姿态”（Pose-Free）的三维重建方法。其中一类是“有监督无姿态方法”（Supervised Pose-Free Methods），它们在推理时不需要姿态，但在训练阶段仍然需要真实的相机姿态作为监督信号。这使得它们的应用范围局限于那些拥有姿态标注的数据集。

(上图对比了三种训练流程：(a) 传统需要姿态的方法；(b) 训练时需要姿态监督的无姿态方法；(c) 本文提出的完全自监督无姿态方法)

因此，一个更具挑战性也更具实用价值的方向是“自监督无姿态方法”（Self-Supervised Pose-Free Methods），它在训练和推理过程中都完全不需要真实姿态。然而，这类方法面临一个固有难题：场景几何的学习和相机姿态的估计在优化过程中是紧密耦合的。错误的姿态会导致重建质量下降，而糟糕的重建反过来又会干扰姿态的估计，形成一个不稳定的“反馈循环”，甚至导致训练崩溃。

SPFSplat正是为了解决这一核心挑战而提出的。它通过一个统一的框架联合优化场景和姿态，首次实现了在完全无姿态监督的情况下，性能超越需要姿态的SOTA方法。

SPFSplat 的核心方法

SPFSplat的设计精妙而高效，其核心思想是构建一个能够同时处理场景重建和姿态估计的统一网络架构。

上图展示了SPFSplat的训练流程。它主要由一个共享的ViT（Vision Transformer）骨干网络和三个专门的预测头组成：

共享特征提取骨干：网络首先使用一个共享的ViT编码器和多视图ViT解码器来处理输入的无姿态图像。这种设计让网络能够聚合多视图信息，联合学习场景几何和相机姿态的共享特征表示，从而提升几何一致性并稳定训练过程。
3D高斯预测头：该部分负责从共享特征中预测3D高斯基元的位置（中心点）、旋转、缩放、不透明度和球谐函数（SH）系数。这些基元共同构成了场景的三维表示。
姿态预测头：这是一个轻量级的MLP网络，它同样基于共享特征，直接回归出每个输入视图相对于一个规范空间（以第一个输入视图为参考）的相机姿态。

为了在没有真实姿态的情况下有效训练网络，SPFSplat巧妙地设计了两个核心损失函数：

图像渲染损失（Image Rendering Loss）：在训练中，网络会利用一个目标视图（Target View）的图像。它首先使用姿态预测头估计出该目标视图的相机姿态，然后基于这个估计出的姿态和已重建的3D高斯基元来渲染一张新的图像。最后，通过计算渲染图像与真实目标图像之间的L2和LPIPS感知损失，来同时优化3D高斯基元和姿态预测。
重投影损失（Reprojection Loss）：这是稳定训练和保证几何精度的关键。传统的渲染损失本身不足以约束几何，可能导致网络“作弊”（例如，通过移动高斯点来匹配视图，而不是学习正确的几何结构）。重投影损失通过强制一个几何约束来解决这个问题：对于每个输入视图中的一个像素，其对应的3D高斯点的中心，在通过估计出的相机姿态被重新投影回该视图的2D平面时，其位置应该与原始像素位置保持一致。这个损失为网络提供了强大的几何对齐信号，有效避免了训练崩溃。

通过这种方式，SPFSplat将姿态估计和三维重建统一在一个自监督的框架下，实现了端到端的联合优化。

实验结果与分析

研究团队在多个标准数据集（如RE10K、ACID）上对SPFSplat进行了全面评估，并与当前最先进的方法进行了对比。

1. 新视图合成质量

实验结果表明，SPFSplat的性能非常出色。如下表所示，无论是在图像重叠度高、中、低的情况下，SPFSplat在新视图合成质量（以PSNR、SSIM、LPIPS指标衡量）上均显著优于所有基线方法，包括那些需要精确相机姿态的SOTA方法（如pixelSplat, MVSplat）和之前的无姿态方法（如NoPoSplat, SelfSplat）。

从下面的定性比较图中可以更直观地看到，SPFSplat生成的图像在几何结构（如桥梁）、细节（如游泳池）和纹理较少的区域（如窗户）上都更加清晰和准确，显著减少了其他方法中常见的模糊、重影和伪影。

2. 相对姿态估计精度

在相对姿态估计任务上，SPFSplat同样表现出色，其精度超越了近期依赖几何先验进行训练的方法（如MASt3R）。这证明了其统一框架在联合优化几何与姿态方面的有效性。

3. 几何重建质量

如下图所示，SPFSplat重建的3D高斯点云质量更高，结构更锐利、更准确，而基线方法则可能出现几何扭曲或错误。这得益于其联合优化策略，使得姿态和几何能够相互促进，形成更强的场景理解。

4. 跨数据集泛化能力

为了测试模型的泛化性，研究者将在室内场景数据集RE10K上训练的模型，直接在室外（ACID）和以物体为中心（DTU）的数据集上进行测试。结果显示，SPFSplat表现出强大的零样本泛化能力，性能优于其他SOTA方法。

5. 消融实验

该方法可以自然地扩展到使用更多输入视图。实验证明，随着输入视图数量的增加，新视图合成的质量也持续提升。

论文贡献与价值

SPFSplat的贡献是多方面的：

首个超越SOTA的自监督无姿态方法：作者称这是第一个在稀疏视图新视图合成任务中，性能全面超越需要姿态和有监督无姿态SOTA方法的自监督框架。
高效的统一架构：提出了一个高效的、基于共享骨干网络的统一架构，通过单次前向传播即可同时预测3D高斯和相机姿态，兼具高效率和高性能。
摆脱姿态依赖：彻底消除了对真实相机姿态的依赖，使其能够直接应用于无姿态标注的大规模真实世界数据，极大地扩展了3D高斯溅射技术的应用场景。
开源贡献：作者开源了代码和训练好的模型，为社区提供了强大的工具，并为后续研究指明了新的方向，例如探索在更大、更多样化的数据集上进行训练以进一步提升性能。