CVPR23｜CLIP涉猎3D场景！Google等提出三维查询框架OpenScene



CVPR23｜CLIP涉猎3D场景！Google等提出三维查询框架OpenScene

极市平台

2023-07-27

导读：零样本3D语义分割的最新水平！

↑ 点击蓝字关注极市平台

作者丨米格

编辑丨极市平台

本文首发于极市平台，转载须经授权并注明来源插入公众号名片。

极市导读

用于开放词汇的三维场景理解的简单而有效的零样本方法OpenScene，在具有40、80或160个类别的室内3D语义分割上，击败完全监督的方法。 >>加入极市CV技术交流群，走在计算机视觉的最前沿

论文地址：https://arxiv.org/abs/2211.15654

项目地址：https://github.com/pengsongyou/openscene

简介

传统的3D场景理解方法依赖于标记的3D数据集，以监督的方式训练模型来执行单个任务。而作者提出了一种替代方法OpenScene，这是一个针对三维场景的开放词袋查询模型。其中模型预测了在CLIP特征空间中与文本和图像像素共嵌入的3D场景点的密集特征。这种零样本方法实现了与任务无关的训练和开放词汇查询。例如，要执行SOTA零样本3D语义分割，它首先推断每个3D点的CLIP特征，然后基于与任意类标签嵌入的相似性对它们进行分类。更有趣的是，它能够实现一系列从未尝试过的开放词汇场景理解应用。例如，它允许用户输入任意文本查询，然后查看热图来指示场景的哪些部分匹配。方法能够在复杂的3D场景中识别对象、材料、可利用性、活动和房间类型，所有这些都使用同一个模型进行训练，而不需要任何标记的3D数据。

Introduction

三维场景理解是计算机视觉中的一项基本任务。给定一个带有一组位姿以及RGB信息的三维网格或点云，目标是推断每个三维点的语义、可利用性、功能和物理特性。例如，在上图中所示的房子中，我们想要预测哪些表面是风扇的一部分（语义）、由金属制成（材料）、在厨房内（房间类型）、一个人可以坐的地方（可利用性）、一个人可以工作的地方（功能），以及哪些表面是软的（物理特性）。这些问题的答案可以帮助机器人与场景进行智能交互，或通过交互式查询和可视化帮助人们理解它。

然而由于现实中的查询有多种可能，实现这一广泛的场景理解目标是具有挑战性的。传统的3D场景理解系统是通过针对特定任务设计的基准数据集的监督训练而得到的（例如，针对20个类别的封闭集合的3D语义分割）。它们每个都设计用于回答一种类型的查询（这个点是在椅子、桌子还是床上吗？），但对于训练数据稀缺的相关查询（例如，分割罕见的物体）或没有3D监督的其他查询（例如，估计材料特性），提供的帮助很少。

本文研究如何利用预训练的文本-图像嵌入模型（例如CLIP）来辅助三维场景理解。这些模型是从带有标题的大型图像数据集中训练出来的，以在共享特征空间中共同编码视觉和语言概念。最近的研究表明，这些模型可以用于增加二维图像语义分割的灵活性和泛化能力。然而，没有人研究如何利用它们来改善三维场景理解任务。

作者提出了一种名为OpenScene的简单而有效的零样本方法，用于开放词汇的三维场景理解。作者的关键思路是使用文本字符串和图像像素共同编码的，在CLIP特征空间中的三维点的密集特征（如下图所示）。为了实现这一目标，作者建立了3D场景中的3D点与位姿图像中的像素之间的关联，并训练一个3D网络，使用CLIP像素特征作为监督来编码3D点。这种方法将3D点与特征空间中的像素对齐，进而与文本特征对齐，从而实现对3D点的开放词汇查询。

作者的3D点嵌入算法包括2D和3D卷积。首先，作者将点的3D位置反投影到每个图像中，并使用多视角融合聚合相关像素的特征。接下来，我们训练一个稀疏的3D卷积网络，仅从3D点云几何形状中进行特征提取，并使用最小化与聚合像素特征之间差异的损失。最后，作者将2D融合和3D网络产生的特征组合成每个3D点的单个特征。这种混合的2D-3D特征策略使算法能够利用2D图像和3D几何中的显著模式，因此比单个域中的特征更具有鲁棒性和描述性。

一旦计算出了每个3D点的特征，我们就可以执行各种3D场景的理解查询任务了。由于CLIP模型是使用自然语言标题进行训练的，因此它捕捉到了超越物体类别标签的概念，包括可供性、材料、属性和功能。例如，将3D特征与“软”的Embeddings计算相似度会产生图文章开头所示图片的结果，突出显示沙发、床和舒适的椅子是最佳匹配项。

由于作者的方法是零样本的（即不使用目标任务的标记数据），因此在传统基准测试中的有限任务集上，它的性能不如完全监督的方法（例如具有20个类别的3D语义分割）。但是，在其他任务上它表现出明显更强的性能。例如，在具有40、80或160个类别的室内3D语义分割上，它击败了完全监督的方法。它也比其他零样本baseline表现更好，并且可以在新的数据集上使用，即使它们具有不同的标签集，也无需重新训练。它适用于室内RGBD扫描以及室外驾驶捕获。

Method

作者方法的概述如下图所示。首先使用一个预训练的面向开放词汇的2D语义分割模型为每个图像计算每个像素的特征。然后，作者将多视图的像素特征聚合到每个3D点上，形成每个点的融合特征向量（Image Feature Fusion）。接下来，作者使用仅接受3D点云作为输入的3D网络来提炼出这些融合特征（3D Distillation）。我们将融合的2D特征和提炼的3D特征组合成单个点特征（2D-3D Feature Ensemble），并使用它来回答开放词汇的查询（Inference）。

1. Image Feature Fusion

作者方法的第一步是从一个2D视觉语言分割模型中提取每个RGB图像的密集像素级Embeddings，然后将它们反投影到场景的3D表面点上。对于分辨率为的RGB图像，我们可以简单地从（冻结的）分割模型计算每个像素的嵌入，表示为，其中是特征维度，是跨总图像数量的索引。对于，作者尝试了两个预训练的图像分割模型OpenSeg和LSeg。给定场景中点云中的一个3D表面点，当提供该帧的内部矩阵和世界到相机外部矩阵时，我们可以计算出它对应的像素。本文只考虑针孔相机模型，因此可以将投影表示为，其中和分别是和的齐次坐标。在像ScanNet和Matterport3D这样的室内数据集中，作者还会进行遮挡测试，以确保像素仅与可见的表面点配对。

通过2D-3D匹配，可以得到点在帧中对应的2D特征，表示为。假设总共有个视图与点相关联，我们可以将这些2D像素嵌入融合起来，得到该点的单个特征向量，其中是用于多视图特征的平均池化。在为每个点重复融合过程后，我们可以建立一个特征点云。

2. 3D Distillation

当存在图像时，特征点云可以直接用于基于语言的3D场景理解。然而，这样融合的特征可能会导致嘈杂的分割，因为2D预测可能存在不一致性。此外，有些任务只提供3D点云或网格。因此，作者将这种2D视觉语言知识提炼成一个只接受3D点位置作为输入的3D点网络。

具体而言，给定一个输入点云，我们试图学习一个编码器，输出每个点的嵌入：

其中。为了让网络输出与融合特征保持一致，作者使用余弦相似度损失：

作者使用了MinkowskiNet18A作为骨干网络，并将输出维度改为。

3. 2D-3D Feature Ensemble

simply the feature with the highest ensemble score.

虽然我们已经可以使用2D融合特征或3D提炼特征执行开放词汇查询，但这里作者仍然提出了一种2D-3D集成方法，用来获得混合特征以提高性能。作者观察到：2D融合特征专门用于预测小物体（例如桌子上的杯子）或几何不确定的物体（例如墙上的画），而3D特征则对具有独特形状的物体（例如墙壁和地板）具有良好的预测效果。作者的目标是将两者的优点结合起来。作者提出的集成方法利用一组文本提示，在推理或离线时提供（例如来自ScanNet等公共基准测试中预定义的类别，或由用户定义的任意类别）。首先，使用CLIP文本编码器计算所有文本提示的Embeddings，表示为，其中是文本提示的数量，是特征维度。接下来，对于每个3D点，作者获取其2D融合和3D提炼Embeddings 和，并分别通过余弦相似度将文本特征与这两组特征相关联：

一旦获得了相对于每个文本提示的相似度分数，我们可以将所有个提示中的最大值和作为其对应特征的集成分数。最终2D-3D集成特征就是具有最高集成分数的特征。

4. Inference

使用前文中描述的任何点特征（、或）和来自任意一组文本提示的CLIP特征，可以通过简单计算它们之间的余弦相似度得出它们的相似性。作者将这个相似度分数用于所有的场景理解任务。例如，对于使用2D-3D集成特征进行零样本3D语义分割，每个3D点的最终分割都是通过点对点计算得出的。

探索

最后，作者探索是否可以查询3D场景以了解超出类别标签的属性。由于CLIP嵌入空间是用大规模文本语料库训练的，它可以表示远远不止类别标签-它可以编码物理属性、表面材料、人类可利用性、潜在功能、房间类型等等。我们假设我们可以使用我们的3D点与CLIP特征的共同嵌入来发现关于场景的这些类型的信息。

下图展示了有关物理属性、表面材料和活动潜在地点的查询示例结果。从这些示例中，我们可以发现OpenScene确实能够将单词与场景的相关区域关联起来-例如，床、沙发和软垫椅与“Comfy”相匹配，烤箱和壁炉与“Hot”相匹配，钢琴键盘与“Play”相匹配。这种多样化的3D场景理解将很难通过完全监督的方法实现，而这需要进行大量的3D标注工作。在作者看来，这是本论文最有趣的结果。

讨论

总结一下，本文介绍了一种与任务无关的方法，将3D点与文本和图像像素一起嵌入到特征空间中，并展示了它在零样本、开放词汇量的3D场景理解中的实用性。它在标准基准测试上实现了零样本3D语义分割的最新水平，在具有许多类标签的3D语义分割中优于监督方法，并使得新的开放词汇量应用程序可以使用任意文本和图像查询来查询3D场景，而无需使用任何标记的3D数据。这些结果为3D场景理解提供了一个新的方向，即通过从大规模多模态数据集中训练的基础模型引导3D场景理解系统，而不仅仅是使用小型标记的3D数据集进行训练。

公众号后台回复“极市直播”获取100+期极市技术直播回放+PPT

极市干货

极视角动态：2023GCVC全球人工智能视觉产业与技术生态伙伴大会在青岛圆满落幕！｜极视角助力构建城市大脑中枢，芜湖市湾沚区智慧城市运行管理中心上线！

经典解读：多模态大模型超详细解读专栏

# 极市平台签约作者#

米格

武汉大学计算机学院本科生

研究领域：少样本，零样本学习，以及开放世界中的视觉问题。