大数跨境
0
0

万物皆可高斯:3D高斯溅射应用(分割、编辑、生成)最新综述

万物皆可高斯:3D高斯溅射应用(分割、编辑、生成)最新综述 极市平台
2025-08-18
0
↑ 点击蓝字 关注极市平台
作者丨CV君
来源丨我爱计算机视觉
编辑丨极市平台

极市导读

 

本文首次全景梳理 3D 高斯泼射在分割、编辑、生成三大方向的 300+ 篇最新进展,给出技术路线、数据集与性能对比,并附持续更新的开源宝库,一张图带你速通 3DGS 应用全生态。 >>加入极市CV技术交流群,走在计算机视觉的最前沿

近年来, 3D Gaussian Splatting (3DGS) 技术如同一颗新星,在三维场景表示领域冉冉升起。它凭借着能够实时渲染出高保真度、照片般逼真的视图,成为了神经辐射场(NeRF)的有力竞争者。3DGS的强大之处不仅在于新视图合成,其显式、紧凑的特性为各种需要几何与语义理解的下游应用打开了新的大门。

本文将要解读的,是一篇全面梳理3DGS在 分割、编辑、生成 等应用领域最新进展的综述性论文。该论文由来自上海财经大学、伦敦大学学院、新加坡国立大学和复旦大学的研究者共同完成,系统地回顾了超过300篇代表性论文,描绘了一幅3DGS应用生态的全景图。

  • 论文标题: A Survey on 3D Gaussian Splatting Applications: Segmentation, Editing, and Generation
  • 作者: Shuting He, Peilin Ji, Yitong Yang, Changshuo Wang, Jiayi Ji, Yinglin Wang, Henghui Ding
  • 机构: 上海财经大学;伦敦大学学院;新加坡国立大学;复旦大学
  • 论文地址: https://arxiv.org/pdf/2508.09977v1
  • 项目地址: https://github.com/heshuting555/Awesome-3DGS-Applications

研究背景与意义

3DGS作为一种新颖的神经渲染技术,将三维场景表示为大量显式的三维高斯球(Gaussians)集合。每个高斯球都具有位置、形状(协方差)、颜色和不透明度等属性。相比于NeRF依赖神经网络进行体渲染的隐式表示,3DGS的显式表达带来了更高的渲染效率和更直观的编辑能力。

虽然已有不少关于3DGS的综述,但它们大多聚焦于渲染管线、压缩或全局分类,对下游应用的探讨相对有限。这篇综述则精准地切入了这一空白,首次系统性地回顾了3DGS在分割、编辑、生成等核心应用方向的进展,深入分析了其背后的设计原则、方法创新和基准测试,为研究者和开发者提供了宝贵的资源。

3DGS核心应用概览

论文将3DGS的应用划分为三大主流方向:分割、编辑、生成,以及其他功能性任务。

来自13个常用数据集的示例,用于分割、编辑和生成

3DGS 分割 (Segmentation)

3DGS分割旨在为场景中的每个高斯球赋予语义或实例标签。由于缺乏大规模的3D标注数据,现有方法主要依赖强大的2D基础模型(如SAM, CLIP, DINO)来指导3D分割。论文将这些方法按技术特点分为三类:

  • 基于特征蒸馏的方法: 这类方法将2D基础模型提取的语义知识“蒸馏”到3D场景表示中。例如,LangSplatFeature3DGS开创性地将CLIP的开放词汇能力迁移到3D高斯中。后续工作则围绕提升分割精度和降低计算开销两个方向进行改进。
  • 基于2D掩码提升的方法: 这类方法将从2D图像中获取的分割掩码(Mask)“提升”到三维空间。一个核心挑战是解决来自不同视角的2D掩码之间的不一致性。研究者们通过一致性导向的预处理、后处理、端到端学习以及多线索联合优化等策略来应对这一挑战。
  • 基于前馈网络的方法: 为了摆脱针对单个场景进行优化的低效,这类方法采用前馈架构,直接从稀疏视角的输入中推断出3D语义高斯,实现了更快、更具泛化性的3D语义场构建。

论文对各种分割任务(如实例分割、交互式分割、开放词汇分割)在常用数据集(如Replica, LERF-Mask, ScanNet, 3D-OVS)上的性能进行了详细的对比分析。

代表性3DGS分割数据集的统计
在Replica[279]和LERF-Mask[22]数据集上的定量3D实例分割实验表明
在NVOS[281]和SPIn-NeRF[66]数据集上进行的定量3D交互式分割实验
在ScanNet[274]基准测试上的开放词汇3D语义分割性能对比结果显示
在ScanNet[274]基准测试上的开放词汇3D语义分割性能对比结果显示
在3D-OVS[61]数据集上进行的开放词汇2D语义分割定量评估(以mIoU为指标)结果显示
在LERF-OVS[26]数据集上的定量实验结果表明

3DGS 编辑 (Editing)

3DGS的显式特性使其在场景编辑上具有天然优势。主流方法通常结合2D扩散模型,以实现精确的3D内容修改。

  • 基于文本指令的编辑:GaussianEditor等开创性工作利用文本指令来定位和编辑3D对象。后续研究致力于提升编辑区域的定位精度、保证多视角一致性以及提高编辑效率和速度。
  • 基于图像引导的编辑: 仅靠文本往往难以完全表达用户的复杂意图。因此,许多方法引入图像作为引导,以实现更精准、更个性化的定制。这通常涉及参数高效的微调技术(如LoRA)和多阶段的渐进式优化流程。
  • 风格迁移: 这类任务旨在将参考图像的艺术风格迁移到3D场景中,同时保持其原有的几何结构。研究者们设计了特定的目标函数(如多尺度风格损失)并结合VGG等模型的特征来引导风格优化。

论文同样在Mip-NeRF360和IN2N等基准数据集上对比了不同编辑方法的性能。

代表性3DGS编辑数据集的统计
在Mip-NeRF360 [275]和IN2N [74]数据集上的3D高斯泼溅(3DGS)编辑性能对比实验表明
在Mip-NeRF360 [275]和IN2N [74]数据集上的3D高斯泼溅(3DGS)编辑性能对比实验表明
在Mip-NeRF360 [275]数据集上进行的3D高斯泼溅(3DGS)风格迁移性能对比实验

3DGS 生成 (Generation)

3DGS在从文本或图像直接生成三维内容方面也显示出巨大潜力,其效率远超基于NeRF的方法。

  • 对象级生成:

    • 逐场景优化方法: 以DreamFusion引入的 分数蒸馏采样(Score Distillation Sampling, SDS) 损失为基础,这类方法利用强大的2D扩散模型作为先验来指导3D高斯的优化。后续工作主要围绕改进SDS以提升几何精度和细节保真度,以及利用多视角引导来解决“Janus问题”(多头问题)。
    • 前馈网络方法: 为了克服优化的耗时问题,研究者开始探索基于大规模数据集训练的前馈模型,以直接生成3D资产。这包括对潜在空间的优化、设计更高效的网络结构以及直接优化扩散模型本身。
  • 场景级生成: 与生成单个对象相比,生成整个三维场景更为复杂。现有工作通过引入全景图先验、迭代生成、设计专门的网络结构等方式,探索从文本或单张图像生成大规模、高保真度的三维场景。

论文在GSO和Objaverse等数据集上对生成模型的性能进行了量化比较。

代表性3DGS生成数据集统计
GSO[277]数据集上的定量3DGS生成
GSO[277]数据集上的定量3DGS生成
Objaverse[276]数据集上的定量3DGS生成

其他功能性任务

除了上述三大方向,3DGS还在数字人(Human Avatar)、即时定位与建图(SLAM)和3D目标检测等领域展现了广泛的应用前景。

论文贡献与价值

这篇综述论文做出了以下关键贡献:

  1. 首次系统性梳理: 首次对3DGS在分割、编辑、生成等下游应用的研究进展进行了系统、全面的回顾和分类。
  2. 深入的技术分析: 不仅是简单罗列论文,更深入地分析了各类任务中的代表性方法、监督策略、学习范式,并指出了共同的设计原则和新兴趋势。
  3. 全面的基准总结: 汇总了各个应用方向上常用的数据集、评估指标,并对现有方法在公开基准上的性能进行了对比分析,为后续研究提供了宝贵的参考。
  4. 宝贵的开源资源: 提供了一个持续更新的GitHub仓库,收集了相关的论文、代码和资源,极大地便利了社区的研究与开发。

CV君认为,这篇综述为所有对3DGS技术感兴趣的研究者和从业者提供了一份详尽的“藏宝图”。它不仅清晰地展示了当前的技术版图,也为未来的研究指明了方向,例如开发更大规模的前馈模型、设计更可靠的3D评估指标、融合大语言模型(LLM)以及构建通用3DGS模型等。对于希望快速了解并进入3DGS应用领域的同学来说,这是一篇不容错过的必读文献。


公众号后台回复“数据集”获取100+深度学习各方向资源整理

极市干货

技术专栏:多模态大模型超详细解读专栏搞懂Tranformer系列大视觉模型 (LVM) 解读扩散模型系列极市直播
技术综述:小目标检测那点事大模型面试八股含答案万字长文!人体姿态估计(HPE)入门教程

点击阅读原文进入CV社区

收获更多技术干货


【声明】内容源于网络
0
0
极市平台
为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
内容 8155
粉丝 0
极市平台 为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
总阅读919
粉丝0
内容8.2k