

NIPS2025：港中文团队开源FHGS-3D，冻结的语义特征如何在空间中蒸馏

极市平台

2025-12-03

↑ 点击蓝字关注极市平台

来源丨计算机视觉life

编辑丨极市平台

极市导读

港中文团队提出FHGS：冻结2D大模型特征，用“电场-聚类”双驱动仅优化高斯几何与不透明度，5分钟完成训练，特征场纯净、几何去噪，DTU上性能优于24小时级的Feature3DGS。>>加入极市CV技术交流群，走在计算机视觉的最前沿

原文：FHGS：Feature-Homogenized Gaussian Splatting

作者：Q. G. Duan, Benyun Zhao, Mingqiao Han, Yijun Huang, Ben M. Chen

NIPS2025中，香港中文大学无人系统研究团队提出了一种全新的、受物理模型启发的3D特征融合框架，旨在解决在冻结 2D 视觉大模型（如 SAM、CLIP）预训练特征的前提下，将其稳健蒸馏到 3D 场景中的核心难题。FHGS不仅显著提升了特征融合的质量和几何重建的精度，还将训练效率提升了数个数量级。该工作已在github上开源。

项目主页：https://fhgs.cuastro.org/

原文链接：https://arxiv.org/abs/2505.19154

github链接：https://github.com/QGDuan/FHGS

01 研究背景：当3DGS遇上2D视觉大模型

近年来，3D高斯溅射（3D Gaussian Splatting, 3DGS）技术以其出色的实时渲染能力和高质量的重建效果，革新了三维场景表示。与此同时，以SAM、CLIP、DINOV3为代表的2D视觉大模型在图像语义理解上取得了巨大成功。

一个自然而然的想法是：我们能否将2D视觉大模型强大的“理解能力”注入到3D的场景表征中，从而创建一个既能看、又能“理解”的3D世界？这正是“特征场”（Feature Field）研究的核心目标，对机器人导航（VLN）、三维场景编辑与分割等下游任务具有关键意义。

02 研究痛点：看似简单的“搬运”，实则充满矛盾

然而，将2D特征“冻结”并“蒸馏”到3D空间并非易事。现有方法普遍面临三大痛点：

根本矛盾：颜色的“各向异性”与语义的“各向同性”

物体的颜色（RGB）会随光照条件和观察视角变化，具有典型的各向异性（anisotropic）。
相比之下，物体的语义特征（feature）——例如“这是一扇窗户”——应当在不同视角下保持不变，即各向同性（isotropic）。

现有框架往往将特征融合生硬的嵌套到GS为RGB设计的渲染框架中，导致同一三维位置在不同视角下产生不一致的语义特征，从而严重削弱场景理解的稳定性。

效率瓶颈：训练过程缓慢

许多现有的特征蒸馏框架依赖复杂的网络结构或漫长的优化过程来对齐多视角特征，单场景训练往往需要数十小时，难以支撑快速迭代优化和实际应用。

特征失真：破坏大模型原有知识

为了实现端到端训练，现有方法通常会在渲染管线中直接对大模型的特征进行梯度优化，这容易“污染”或“扭曲”其原始特征空间，破坏其中蕴含的丰富结构与语义信息，从而削弱效果并降低可解释性。

03 方法总览：FHGS的核心创新

针对以上痛点，我们提出了FHGS框架，其核心思想是“解耦与引导” 。核心创新为：

通用融合架构（Universal Fusion Architecture）：将二维模型的语义特征统一融合到三维高斯表示中。
不可微特征驱动（NDFD）：利用特征损失，仅优化高斯的几何形状与不透明度。
物理启发的双驱动优化（Physics-Inspired Dual-Drive Optimization）：通过双“力”损失同时实现全局对齐与局部一致性.

3.1 通用融合架构（Universal Fusion Architecture）

具体来说，该框架从多视角图像出发，先用SFM恢复相机的位姿和初始三维点云，再用带有哈希编码的预训练2D大模型提取像素特征，最后在SFM点上初始化高斯基元并通过带有自适应密度控制的可微光栅化框架进行投影，从而联合学习三维特征场和RGB信息。

3.2 不可微特征驱动框架 (NDFD)

我们不再把特征当作需要学习和更新的“颜色”，而是视作固定、不可微的语义标签：从 2D 大模型提取的高维特征在 3D 中直接冻结，优化过程中始终不被改写，从而既保留其原始语义结构，又从根本上避免特征失真。

3DGS 是“椭球向像素”的 splatting，而 NDFD 则可理解为“像素发射语义射线去驱动椭球”；这种由像素辐射并激活椭球的关系，与电场线驱动带电粒子的物理过程天然形成类比。

在该框架中，我们将优化拆分为两条互补的路径：一条是可微光栅化框架（DRF，绿色路径），通过标准可微渲染器和 RGB 损失仅优化高斯的颜色，用于细化真实感外观；另一条是不可微特征驱动（NDFD，橙色路径），在特征空间上直接施加损失，只更新高斯的几何与不透明度，并绕过渲染器，用高层语义来塑造场景结构。两条路径的分离使几何优化更加稳定且语义一致，同时外观得到逼真重建。

3.3 物理启发的“双驱动”优化机制这是我们方法最有趣的地方

我们借鉴了电场中电荷运动的物理模型来设计优化机制：

外部场驱动：我们将来自2D图像的真值特征看作一个强大的“电场”。场景中的每个高斯基元则是一个携带自身特征的“电荷”。优化的目标就是驱动这些“电荷”在“电场”力作用下，移动到势能最低（即与真值特征最相似）的位置。
内部聚类驱动：为了让特征场更纯净，我们引入了“电荷间相互作用力”。遵循“同性相吸，异性相斥”的原则，该力促使语义相近的“电荷”（高斯基元）在空间中聚集、语义差异较大的“电荷”彼此远离，从而抑制噪声并锐化语义边界。
驱动机制的实现方式：在具体公式中，我们采用 sigmoid 激励函数，根据当前特征与真实特征计算余弦相似度，判断是否驱动该特征．激活的特征得到两个loss.最终的梯度会经过该高斯基元的w,进而将梯度传递给的空间特征等几何透明度等特征上，而本身保持冻结，从而实现“语义特征驱动几何结构”的物理化优化过程。

实验证明，我们的方法简洁有效．

原文图4解释我们物理驱动机制最直观的示意图，生动地展示了“电场线”（Ray）、“电荷”（高斯基元）以及它们之间的相互作用

对于语义一致的簇（如 C1）：它们是与 fgt 语义一致的“正确”高斯基元。我们的 Lgt 和 Lcf 会协同作用，不仅使其整体与真值特征对齐，还会抑制其内部的噪声点（如 f2），让这个簇的语义表达更纯净、分布更紧致。对于语义不一致的簇（如 C2）：它们可能代表背景或空间中的其他物体。我们的机制会识别出其语义差异（如 fN−3），并通过“异性相斥”的原则将其排斥，防止其干扰前景物体的语义表达。对于簇间噪声（如 fN−4）：那些“漂浮”在不同簇之间的孤立噪声点，会同时被 Lgt 和 Lcf 抑制，从而在最终渲染中降低其影响。

在这种“双驱动”机制下，我们始终保持特征冻结，不直接对其做梯度更新，而是通过优化高斯基元的位置、形状和不透明度等几何参数来间接塑造语义场，从而在多视角间实现一致的语义表达，巧妙地解决了前述的核心矛盾。