大数跨境
0
0

ICML 2025 Oral | 视觉新任务!ReferSplat:3D高斯泼溅指代性分割

ICML 2025 Oral | 视觉新任务!ReferSplat:3D高斯泼溅指代性分割 极市平台
2025-08-14
0
↑ 点击蓝字 关注极市平台
来源丨CVer
编辑丨极市平台

极市导读

 

直接在 3D 高斯层面用空间感知注意力与对比学习对齐自然语言,哪怕目标被遮挡也能精准分割,并发布 Ref-LERF 数据集刷新多项 SOTA。 >>加入极市CV技术交流群,走在计算机视觉的最前沿

论文地址:https://arxiv.org/abs/2508.08252

项目代码:https://github.com/heshuting555/ReferSplat

论文概述

该论文提出了三维高斯指代性分割(R3DGS)这一新任务,旨在实现基于自然语言描述(通常包含空间关系或对象属性)在三维高斯渲染场景中的目标对象分割。该任务要求模型根据自然语言识别目标对象,即使这些对象在当前视角下可能被遮挡或不可见,具有显著的挑战性。为推动该方向研究,论文构建了首个用于该任务的数据集 Ref-LERF,并提出了 ReferSplat 框架。该框架引入空间感知建模范式,将自然语言表达与三维高斯点直接对齐建模,显著增强了模型对复杂空间关系和多模态语义的理解能力。ReferSplat在新提出的 R3DGS 任务和三维开放词汇分割基准上均取得了领先性能。该工作为多模态三维理解和具身智能的发展奠定了基础,在推动人工智能向更自然、更灵活的人机交互方向演进方面具有重要意义。

研究动机:从“类别匹配”走向“会理解空间关系的3D指代”

现有3DGS语义开放词汇分割方法,多依赖将渲染的2D语义特征与文本类名做匹配;训练阶段文本与3D高斯并不直接交互,难以处理“左边/后面/桌子上的那个……”等相对位置关系,对遮挡更是无能为力。这使它们在真实场景的语言互动中受限。我们将问题前移,直接在3D高斯层面建模与语言的对应关系,并提出R3DGS任务与Ref-LERF数据集来系统评估这一能力。Ref-LERF的描述更长、更强调空间词汇,平均句长大于13.6 个词,显著高于以往 3DGS 语义数据的“类名匹配”设定的开放词汇分割,更贴近真实交互需求。

图1 比较 (a)现有的开放词汇3DGS分割流程和 (b) 我们提出的R3DGS分割流程
图1 比较 (a)现有的开放词汇3DGS分割流程和 (b) 我们提出的R3DGS分割流程

方法

图2 ReferSplat整体框架
图2 ReferSplat整体框架

ReferSplat 的核心在于:把语言理解“灌注”到 3D 高斯上,并在 3D 空间内完成与文本的精确对齐与推理。框架包含四个关键组件:

1. 高斯语言指代场

为每个 3D 高斯引入“指代特征向量”,用来度量其与文本词向量/句向量的相似度;渲染阶段不再只渲染颜色或语义特征,而是直接渲染“高斯-文本相似度响应图”,得到分割掩码,并用伪真值监督。这样文本与 3D 高斯在训练中显式交互,具备跨视角、跨遮挡的语言定位能力。

2. 位置感知的跨模态交互

仅有语义还不够,指代语句常带空间关系。我们从高斯中心坐标提取位置嵌入,并通过与词特征的对齐,推断文本端的位置线索;再用位置引导的注意力联合优化高斯指代特征,使其同时编码语义+位置,从而在“左侧/后方/靠近某物体”等描述下做出准确分割。

3. 伪掩码生成

我们用 Grounded-SAM 产生多候选掩码,并提出置信度加权的 IoU 选择策略:同时考虑候选间 IoU 一致性与模型置信,显著提升伪掩码质量,进而提升最终分割精度。

4. 高斯—文本对比学习

针对“语义相近但指代不同目标”的歧义表达,我们从响应最高的高斯集合中汇聚出正样本高斯嵌入,与对应文本做对象级对比学习,显著增强细粒度区分能力。并采用两阶段优化:第一阶段模型渲染的掩码再反哺第二阶段训练,进一步提升鲁棒性。

一句话理解 ReferSplat:在 3D 高斯层上加上语言感知,用位置感知的注意力与对比学习把语言和 3D 空间严丝合缝地对齐;伪掩码质量用置信 IoU把关,最后再两阶段精修。

实验

我们在新构建的 Ref-LERF 上评估 R3DGS 任务,并在 LERF-OVS、3D-OVS 等开放词汇基准上全面对比。Ref-LERF 共 4 个真实场景、59 个物体、295 条语言描述(训练 236,测试 59),空间词汇与细粒度属性描述更丰富。

1. Ref-LERF上的R3DGS结果

R3DGS 主结果:ReferSplat 在 Ref-LERF 上以 29.2 mIoU 取得最优,显著超过 Grounded-SAM(15.8)、LangSplat(13.9)、GS-Grouping(14.4)与 GOI(20.5);在 “ramen / kitchen / figurines / teatime” 等场景均有明显优势(如 35.2 / 24.4 / 25.7 / 31.3)。这验证了“3D 高斯层上的语言交互 + 位置建模 + 对比学习”的有效性。

表1 Ref-LERF上的R3DGS结果
表1 Ref-LERF上的R3DGS结果


2. LERF-OVS/3D-OVS 上的开放词汇分割结果

开放词汇 3DGS(LERF-OVS / 3D-OVS):虽然我们的方法不是专为 3DOVS 设计,ReferSplat 仍取得SOTA。在 LERF-OVS 上平均 55.4(优于 LangSplat 的 51.4),在 3D-OVS 上平均 94.1(优于 93.4)。

表2 LERF-OVS上的开放词汇分割结果
表2 LERF-OVS上的开放词汇分割结果
表3 3D-OVS上的开放词汇分割结果
表3 3D-OVS上的开放词汇分割结果

3. 可视化结果

我们有效地捕捉了高斯点和文本之间的空间关系,即使在严重遮挡或不可见物体的具有挑战性的场景中也能实现卓越的分割,如 (a) 和 (b) 所示。

图3 在 Ref-LERF 数据集上进行 R3DGS 任务可视化,其中蓝色字体表示空间描述
图3 在 Ref-LERF 数据集上进行 R3DGS 任务可视化,其中蓝色字体表示空间描述

总结

ReferSplat首次系统性把“自然语言指代”引入 3D Gaussian Splatting,在可遮挡/不可见目标的定位与分割上给出有效解决方案。未来,可以拓展到 4DGS(动态场景)、3D 视觉定位与尺度估计,并计划构建更大规模数据集,以进一步提升泛化与空间推理能力。


公众号后台回复“数据集”获取100+深度学习各方向资源整理

极市干货

技术专栏:多模态大模型超详细解读专栏搞懂Tranformer系列大视觉模型 (LVM) 解读扩散模型系列极市直播
技术综述:小目标检测那点事大模型面试八股含答案万字长文!人体姿态估计(HPE)入门教程

点击阅读原文进入CV社区

收获更多技术干货

【声明】内容源于网络
0
0
极市平台
为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
内容 8155
粉丝 0
极市平台 为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
总阅读197
粉丝0
内容8.2k