ICCV23｜基于box prompts分割一切！OpenSeeD：简单有效的开放词表图像分割框架

极市平台

2023-07-19

↑ 点击蓝字关注极市平台

编辑丨极市平台

极市导读

该工作既可以做经典的instance, semantic, panoptic segmentation，又可以分割出从未见过的物体类别，还可以基于检测框分割出从未见过的物体并给出正确的类别。 >>加入极市CV技术交流群，走在计算机视觉的最前沿

介绍一下我们中稿ICCV2023的工作OpenSeeD，我们的训练测试代码和模型已经开源：

https://github.com/IDEA-Research/OpenSeeD

论文链接：https://arxiv.org/pdf/2303.08131.pdf

图中是我们模型的输出效果，我们既可以做经典的instance, semantic, panoptic segmentation，又可以分割出从未见过的物体类别，还可以基于检测框分割出从未见过的物体并给出正确的类别，这种基于box prompts分割一切的能力我们是第一个做到的，早于SAM。

OpenSeeD是一个简单而有效的开放词表图像分割的框架，也可以理解为MaskDINO扩展到开放词表的版本。除此以外，为了扩展语义的丰富程度，我们引入O365（365类）检测数据和COCO分割（133类）一起训练（不同于MaskDINO使用O365预训练）。为了能使两个任务和词表兼容，我们解决了data gap以及task gap。最终，我们的方法在多个开放词表任务上取得了与当前sota方法x-decoder comparable甚至更好的效果，相比x-decoder用了4M人工标注的image captioning数据，我们用了0.57M的detection数据，另外我们发现，即使只用5k的o365数据也可以在开放词表任务上达到类似的效果。这说明我们的模型需要的是丰富的视觉概念（类别数），而不一定是很大的数据量。

如图2所示，过去已经有不少工作结合大量的图像文本对实现开词表检测或者分割，而我们应该是第一个把物体检测数据和全景分割数据结合在一起联合训练的工作，并且证明是可行有效的，算是填补了这块空白。

下图是模型的overview，左半部分做的是generic segmentation，为了解决task gap（O365只有前景，而COCO有前景和背景），我们把前景和背景的预测解耦开，右半部分是conditional prediction部分，可以通过GT box预测mask，为了解决data gap，我们可以通过右半部分为O365打标签。