大数跨境
0
0

白翔老师团队提出UniSeg3D:一统六大3D点云分割任务,还全是SOTA!

白翔老师团队提出UniSeg3D:一统六大3D点云分割任务,还全是SOTA! 极市平台
2024-07-05
2
↑ 点击蓝字 关注极市平台
作者丨极市粉丝
编辑丨极市平台

极市导读

 

一个统一的框架同时处理六种3D点云分割任务!UniSeg3D在全景分割、语义分割、实例分割、交互式分割、参考分割和开放词汇语义分割六个任务中均展现出SOTA性能 >>加入极市CV技术交流群,走在计算机视觉的最前沿

论文地址:https://arxiv.org/abs/2407.03263

项目地址:https://dk-liang.github.io/UniSeg3D/

代码地址:https://github.com/dk-liang/UniSeg3D

三维场景理解在虚拟现实、具身智能等技术中存在广泛应用,吸引了研究者们的极大关注。3D点云分割任务是三维场景理解领域的重要组成部分,3D点云分割包括实例、语义和全景分割任务,以及交互式分割任务、参考分割任务和开放词汇语义分割等任务,针对相关任务的研究已经取得引人注目的进展。然而,此前在三维场景理解领域中的研究工作主要聚焦于特定单一点云分割任务,因此这些方法对三维场景的理解限制在单一任务的视角下,忽视了不同任务之间的内在联系。这对实现全面和深入的三维场景理解带来了显著挑战。

华中科技大学的白翔研究团队针对于三维场景理解中的应用挑战,提出了一个简单且有效的3D点云统一分割框架:UniSeg3D模型。这一模型的设计理念是,构建一个统一的框架同时处理六种3D点云分割任务,通过多任务交互充分挖掘任务间的协同性,以实现全面而深入的场景理解,从而进一步促进3D点云分割任务中的性能表现。UniSeg3D框架有如下的优势:

  • 多任务统一:当前的3D点云分割方法通常为单一任务设计,不同于现有的研究工作,UniSeg3D经过一次推理过程能够同时支持六种点云分割任务;
  • 性能优异:通过建立任务间的显式关联,UniSeg3D在全景分割、语义分割、实例分割、交互式分割、参考分割和开放词汇语义分割六个任务中均展现出SOTA性能;
  • 可扩展性:UniSeg3D采用query统一表征多种点云分割任务的信息与特征,结构简洁有效。且通过输入新增任务的query表征,可将UniSeg3D拓展至更多任务,展现了框架的可扩展性和灵活性。

UniSeg3D如何实现的?

框架结构如上图所示,它主要由三个模块组成:点云Backbone、Prompt编码器和掩膜解码器。其中,点云Backbone提取输入三维场景的点云特征;Prompt编码器包含文本提示编码器与视觉提示编码器,文本提示编码器提取文本特征,而视觉交互分割中的Prompt特征通过采样点云特征获取,将提取后的特征信息送入掩膜解码器中获取不同任务的分割结果。

在之前的研究工作中,忽略了各个任务间的关联,导致每个任务只关注其任务特定的视角,限制了全面而深入的三维场景理解。为克服以上缺陷,本研究采用对比学习和知识蒸馏建立了不同任务间的显式联系,促进深层次的三维场景理解,其共分为两个部分。

对比学习: 对于参考分割任务,当多个形状相同的物体相邻排列时,容易出现歧义问题,如上图(a)所示。因此引入基于ranking的对比学习方式,即利用交互式分割的特征与参考分割任务的特征进行对比学习从而建立显式关联,如上图(b)所示。

知识蒸馏: 鉴于视觉交互式分割所展现出的优异性能,如上图(c)所示,利用交互式分割任务的预测mask和分类logits分别对全景分割任务的预测mask和参考分割任务输出的类别logits进行监督约束,从而实现性能优化。

UniSeg3D的效果如何?

全景分割、语义分割、实例分割、开放词汇语义分割、参考分割、交互式分割分别由PS、SS、IS、OVS、Referring、Interactive表示。从上述表格中可以看出,在仅实现六种任务,而不引入各任务间的联系时,在全景分割、语义分割、实例分割任务和参考分割任务上的指标结果均有所降低,因此统一多种3D点云分割任务是一个富有挑战性的课题。

UniSeg3D在ScanNet20、ScanRefer和ScanNet200数据集上进行评估测试,取得了优异的性能,具体情况如下:

在全景分割、语义分割、实例分割、开放词汇语义分割、交互式分割和参考分割任务中,UniSeg3D的均取得SOTA表现,这表明UniSeg3D在统一3D点云分割任务上的有效性。

下图展示了UniSeg3D在六种3D点云分割任务上的可视化结果。

总结

UniSeg3D作为首个在三维场景理解中集成六大分割任务的模型,为三维场景理解提供了一个灵活而高效的解决方案。以前的特定任务的方法不能提取跨任务信息,阻碍了全面的三维场景的理解。相比之下,UniSeg3D充分利用了支持多任务的结构特点,进一步通过建立任务间的关联来提高模型性能,从而在各种基准任务中取得优异表现。


公众号后台回复“数据集”获取100+深度学习各方向资源整理

极市干货

技术专栏:多模态大模型超详细解读专栏搞懂Tranformer系列ICCV2023论文解读极市直播
极视角动态欢迎高校师生申报极视角2023年教育部产学合作协同育人项目新视野+智慧脑,「无人机+AI」成为道路智能巡检好帮手!
技术综述:四万字详解Neural ODE:用神经网络去刻画非离散的状态变化transformer的细节到底是怎么样的?Transformer 连环18问!

点击阅读原文进入CV社区

收获更多技术干货

【声明】内容源于网络
0
0
极市平台
为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
内容 8155
粉丝 0
极市平台 为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
总阅读919
粉丝0
内容8.2k