大数跨境
0
0

CVPR 2023|形状感知零样本语义分割新框架SAZS

CVPR 2023|形状感知零样本语义分割新框架SAZS 极市平台
2023-05-16
0
↑ 点击蓝字 关注极市平台
作者丨Garfield
编辑丨极市平台

极市导读

 

本文提出了一种新颖的形状感知零样本语义分割(SAZS)框架,利用大规模预训练视觉语言模型特征空间中丰富的先验知识,并通过在边界检测约束任务上进行联合训练来融合形状感知。 >>加入极市CV技术交流群,走在计算机视觉的最前沿

论文链接:https://arxiv.org/abs/2304.08491v1

代码链接:https://arxiv.org/abs/2304.08491v1

1. 引言

Semantic segmentation是一个已经具有广泛影响力的研究领域,旨在以像素级的方式预测输入图像的类别。在包括自动驾驶、医疗诊断和机器人视觉和导航在内的实际应用中,准确的语义分割模块为后续任务(如决策制定或治疗选择)提供了像素级的理解,对于这些任务至关重要。尽管在语义分割领域取得了显著进展,但大多数现有方法都专注于同一训练和测试时间内在封闭集合上进行密集预测的情况。因此,在应用于开放世界时,那些在封闭集合中训练并表现良好的方法可能会失败,因为开放世界中未见过对象的像素很可能被分配给在训练过程中看到的类别,从而在自动驾驶等安全关键应用中造成灾难性后果。直接的解决方案包括微调或重新训练现有神经网络,但是在重新训练过程中枚举无限的未见过类别是不切实际的,更不用说这一过程还是需要大量的时间和精力的。

受经典谱方法(spectral methods)及其增强shape awareness的内在能力启发,本文提出了一种新颖的Shape-Aware Zero-Shot语义分割框架(SAZS)来解决零样本语义分割的任务。首先,该框架利用已知类别在训练集上强制进行视觉-语言对齐,利用大规模预训练的视觉-语言模型CLIP中的丰富语言先验知识。同时,该框架还共同强制预测的语义区域边界与ground truth的边界对齐。最后,利用以自监督方式学习的特征构建的affinity matrices的 Laplacian matrix的特征向量,将输入分解为特征分段。然后,将它们与训练模型的基于学习的预测进行融合。融合输出被视为框架的最终预测。如图所示,与之前的方法相比,我们的方法的预测更好地与物体的形状对齐。本文还通过对PASCAL-5i和COCO-20i进行详细的实验,证明了该方法明显优于先前的最新技术。通过检查目标物体形状紧凑性与IoU之间的相关性以及语textual embedding局部性与IoU之间的相关性,本文发现语言anchor和物体形状分布带来的性能影响很大。通过广泛的分析,本文证明了SAZS框架对于在开放世界中分割语义类别的形状感知的有效性和泛化性。

2. 方法

zero-shot semantic segmentation的目标是将semantic segmentation任务扩展到训练数据集中没有涵盖的未知类别。其中一种引入额外先验的潜在方法是利用预训练的vision-language模型,但大多数这些模型都着眼于图像级别的预测,无法转换到密集的pixel级别的预测任务中。因此,作者提出了一种名为Shape-Aware Zero-Shot Semantic Segmentation(SAZS)的新方法。该方法利用预训练CLIP模型中包含的丰富语言先验知识,同时利用局部区域之间的接近性来执行带约束的边界检测任务,并利用自监督视觉特征的谱分解来提高方法对形状的敏感性,并将其与像素级预测相结合。本文的方法的整体流程如上图所示。输入图像首先由图像编码器转换为像素级嵌入,然后与预训练CLIP模型的文本编码器获得的预计算文本嵌入对齐(上图中的A部分)。同时,图像编码器中的额外头部用于预测补丁中的边界,这些边界被优化以接近由分割实况获得的真值过程(上图中的B部分)。此外,作者还通过spectral decomposition分解图像并将输出的特征分段与无类别的分割结果融合,进一步利用局部区域之间的接近性进行推理(上图中的C部分)。

2.1 Pixel-wise Vision-Language Alignment

Pixel-wise Vision-Language Alignment是SAZS中使用的一种技术,用于将图像的像素级特征与共享特征空间中的文本anchors对齐。这是通过优化与CLIP分开的密集视觉编码器并在训练期间将像素级输出特征朝向CLIP特征空间中的文本anchors来实现的。其目标是促进语义分割任务中的形状感知。该技术受到了图像分割文献中的经典谱方法的启发,并利用以自监督像素级特征构建的拉普拉斯矩阵的特征向量来促进形状感知。其实核心内容就是借助

公式中, 表示位置 处的像素视觉特征, 表示第 个文本锚点的特征, 表示位于 处的像素的地面实况类别的索引。 表示对所有像素对 的求和,其中 分别表示预测的邻接矩阵的高度和宽度。损失函数计算为负对数比率,分子为像素 的视觉特征向量和其对应像素 的视觉-语义embedding向量的点积的指数,分母为像素 的视觉特征向量和语义集合 中所有像素的视觉-语义embedding向量的指数和。也就是借助CLIP提取的两种模态信息,然后借助谱分析分解,然后进行对齐。

2.2 Shape Constraint

由于CLIP是在图像级任务上进行训练的,仅仅利用CLIP特征空间中的先验知识可能不足以应对密集预测任务。为了解决这个问题,SAZS引入边界检测作为一个约束任务,使得视觉编码器能够聚合图像中包含的更细的信息。受InverseForm的启发,作者通过优化地面实况边缘与特征映射中的边缘之间的仿射变换来解决这个约束任务,以此来实现特征的对齐。具体来说,如框架图所示,提取视觉编码器的中间层特征并将其分成不同的tokens。一方面,我们通过在ground truth的语义mask上应用Sobel算子来获取补丁内的地面实时的edge。另一方面,使用一个边界头来处理特征补丁。然后使用预训练的MLP计算第i个补丁内的仿射变换矩阵θi,该矩阵用于在真值的边缘和处理后的特征补丁之间进行变换。需要注意的是,该MLP是使用edge的mask预先训练的,在本文提出的框架训练期间不进行优化。通过将仿射变换矩阵优化为单位矩阵来实现对其的优化:

2.3 Self-supervised Spectral Decomposition

提出的方法利用自监督视觉特征的谱分解来构建拉普拉斯矩阵,然后使用这些矩阵来获取特征向量。这些特征向量用于生成特征分割,作为零样本语义分割任务的预测结果。通过使用这些特征分割,该方法促进了语义分割任务中的形状感知。该技术受到了图像分割文献中的经典谱方法的启发,并且在训练期间通过对齐ground truth和预测边缘来实现。

affinity mat的推导是实现谱分解的关键。本文遵循Melas-Kyriazi等人的方法,首先利用预训练的自监督DINO中最后一层的注意力块中的特征 。像素 之间的affinity 定义如下:

需要注意的是,自监督transformer仅在推理期间使用,其权重不会被优化。

虽然从transformer特征派生的affinity 信息丰富,包含了语义信息,但低级别的颜色相似性和空间距离等因素缺失。受图像matting的启发,作者首先将输入图像转换为HSV颜色空间:,其中 分别是HSV坐标, 是像素 的空间坐标。然后,像素之间的亲和力定义为:

其中 表示2-范数。总affinity mat定义为两者的加权和:

有了affinity mat,我们现在可以计算affinity mat和拉普拉斯矩阵的特征向量,用于将图像分解为多个特征分割。

3. 实验

所提出的方法SAZS在Pascal和COCO数据集上均取得了零样本语义分割方面的最优性能,与先前方法相比有显著的优势。本文表明,所提出的方法优于在训练期间对齐ground truth和预测边缘的最先进的形状感知公式。本文还进行了详细的消融研究,以评估所提出的方法在训练期间的有效性。结果表明,促进形状感知的好处与遮罩紧凑性和语言嵌入局部性密切相关。本文得出结论,所提出的方法在促进形状感知和提高零样本语义分割性能方面是有效的。

SAZS通过利用基于自监督像素级特征构建的拉普拉斯矩阵的特征向量来促进形状感知,在训练过程中优于通过gt和预测边缘的最先进的形状感知公式。这种简单而有效的技术根本不使用已知类别的遮罩。本文表明,这种技术比在训练期间gt和预测边缘的最先进公式更为有效,这表明通过自监督视觉特征的谱分解促进形状感知是提高零样本语义分割对形状敏感性的更有效的方法。

作者观察到,促进形状感知与遮罩紧凑性和语言嵌入局部性密切相关。具体而言,他们发现,在遮罩更紧凑的数据集(如PASCAL-5i)中,促进形状感知的好处更为明显,而在遮罩更复杂的数据集(如COCO-20i)中,则不那么明显。他们还发现,在语言嵌入更为局部化的情况下(例如ViLBERT骨干网络),促进形状感知的好处更为显著,而在语言embedding更为全局化的情况下(例如UNITER骨干网络),则不那么显著。这些观察结果表明,促进形状感知的有效性取决于数据集和所使用的backbone的特定特征。

在PASCAL-5i数据集上的定性比较结果如下。第一列和最后一列是不同类别的输入图像和相应的gt语义的mask。第二列和第三列分别是没有形状感知和有形状感知的SAZS的预测结果。*表示未在训练阶段见过的类别,黄色框表示分割不良的区域。可以发现提出的方法具有显著的效果.

4. 讨论

该提议方法的一个潜在限制是依赖于大规模预训练的视觉-语言模型的可用性,而在某些情况下可能不可行。此外,对于具有高度复杂mask的数据集,该方法可能不太适用,因为推动形状感知的好处更适用于具有更紧凑mask的数据集。最后,该提议方法可能不适用于实时应用程序,因为它需要对自监督视觉特征进行谱分解,这可能计算成本较高。

5. 结论

本文提出了一种新颖的形状感知零样本语义分割(SAZS)框架,利用大规模预训练视觉语言模型特征空间中丰富的先验知识,并通过在边界检测约束任务上进行联合训练来融合形状感知。该方法利用自监督谱分解获取图像的特征向量,将其与网络预测融合作为先验知识,增强了模型感知形状的能力。广泛的实验表明,SAZS具有显著的优越性能,超过了先前方法的很大幅度。因此,本文得出结论,所提出的方法在促进形状感知和提高零样本语义分割性能方面是有效的。

公众号后台回复“CVPR2023”获取最新论文分类整理资源
极市干货
极视角动态推进智能矿山建设,极视角「皮带传输系列算法」保障皮带安全稳定运行!
CVPR2023CVPR 2023|21 篇数据集工作汇总(附打包下载链接)
数据集:垃圾分类、水下垃圾/口罩垃圾/烟头垃圾检测等相关开源数据集汇总异常检测开源数据集汇总语义分割方向开源数据集资源汇总

极市平台签约作者#


Garfield


武汉大学计算机学院19级本科生 

研究领域:通用视觉以及开放世界的机器学习,

主要聚焦于完成AI模型在真实场景的部署。



投稿方式:
添加小编微信Fengcall(微信号:fengcall19),备注:姓名-投稿
△长按添加极市平台小编

点击阅读原文进入CV社区

收获更多技术干货

【声明】内容源于网络
0
0
极市平台
为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
内容 8155
粉丝 0
极市平台 为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
总阅读3.2k
粉丝0
内容8.2k