ACM Multimedia 2024 Oral｜自动驾驶场景下面向真实世界布局的转变



ACM Multimedia 2024 Oral｜自动驾驶场景下面向真实世界布局的转变

极市平台

2024-08-28

↑ 点击蓝字关注极市平台

作者丨ReLER实验室

编辑丨极市平台

极市导读

本文提出一种新颖的多模态场景适应方法DCF，被ACM Multimedia 2024提名为口头报告（Oral Presentation，3.97%）。本方法通过手工设计的基于深度感知的类别过滤器，手动将自动驾驶场景的物体分类为近景，中景，远景，并且将不符合预先定义分布的数据进行过滤，实现由虚拟到真实世界分布的转变。提出的方法显著提高了小物体类别的性能，并能灵活地迁移到不同模型，取得SOTA结果。 >>感谢大家对极市直播的支持，由于讲者老师身体不适，原定今晚的直播延迟到下周，届时我们会重新发出直播预告～

论文一作陈牧是来自澳大利亚悉尼科技大学ReLER Lab的在读博士，导师为杨易教授。近两年在视觉及多媒体领域顶级会议发表多篇一作论文，并担任T-PAMI等ACM/IEEE顶级期刊和会议审稿人。主要研究兴趣为计算机视觉，包括视觉场景理解、视频分割、领域自适应、以人为中心的场景交互等。更多信息见个人主页：https://chen742.github.io

引用：

@inproceedings{chen2024transferring,
  title={Transferring to Real-World Layouts: A Depth-aware Framework for Scene Adaptation},
  author={Chen, Mu and Zheng, Zhedong and Yang, Yi },
  booktitle={ACM Multimedia},
  year={2024}
}

论文地址：https://arxiv.org/abs/2311.12682

代码地址：https://github.com/chen742/DCF

作者主页：https://chen742.github.io

Abstract

通过无监督领域自适应（UDA）进行场景分割，可以将从源合成数据中获得的知识转移到现实世界的目标数据，从而大大减少了在目标领域中手动标注像素级别的需求。为了促进领域不变特征的学习，现有的方法通常通过简单地复制和粘贴像素，将源领域和目标领域的数据混合。这种简单的方法通常是次优的，因为它们没有考虑混合的布局与现实场景的匹配程度。现实场景具有固有的布局特征。我们观察到，诸如人行道、建筑物和天空等语义类别，显示出相对一致的深度分布，并且在深度图中可以清晰地区分。由于不合理的混合，模型在预测目标领域时会出现混淆。例如，将近处的“行人”像素直接粘贴到远处的“天空”区域是没有意义的。基于这一观察，我们提出了一个深度感知框架，显式利用深度估计来混合类别，并在端到端的方式中促进两个互补任务，即分割和深度学习。特别地，该框架包含一个用于数据增强的深度引导上下文过滤器（DCF）和一个用于上下文学习的跨任务编码器。DCF模拟了现实世界的布局，而跨任务编码器进一步自适应地融合了两个任务之间的互补特征。此外，几个公共数据集没有提供深度标注，因此我们利用现成的深度估计网络来获取伪深度。大量实验表明，我们的方法即使使用伪深度，也能取得具有竞争力的性能。

Introduction

语义分割是机器视觉中的一项基本任务，支持着众多视觉应用。在过去的几年里，语义分割取得了显著的进展。值得注意的是，现有的主流模型通常需要大规模的高质量标注数据集，例如ADE20K，才能获得良好的性能。然而，在现实世界中，获取像素级别的标注数据通常代价高昂且耗时。一种直接的解决方案是使用合成数据进行网络训练，因为合成数据的像素级别标注相对容易获得。然而，由于天气、光照和道路设计等多种因素，使用合成数据训练的网络在实际应用中表现出较差的可扩展性。因此，研究人员转向无监督领域自适应（UDA）以应对不同领域间的差异。UDA方法的一个分支试图通过对齐领域分布来减轻领域偏移。另一种可能的范式是自训练，它通过递归地优化目标伪标签来逐步减少领域偏移。更进一步，最近的DACS方法及其后续工作结合了自训练和ClassMix方法，在源域和目标域之间混合图像。通过这种方式，这些方法能够创建高度扰动的样本，以促进两个领域之间共享知识的学习，从而辅助训练。具体而言，跨域混合的目标是将某些类别的对应区域从源域图像中复制并粘贴到未标注的目标域图像中。然而，我们注意到，这种简单的策略会导致将大量对象粘贴到不合理的深度位置。这是因为每个类别在深度分布上都有其特定的位置。例如，背景类如“天空”和“植被”通常出现在较远的位置，而占用像素较少的类别如“交通志”和“电杆”通常出现在较近的位置。这种合成的训练数据会损害上下文学习，导致特别是在小物体的定位预测性能上表现不佳。为了解决这些局限性，我们观察了现实世界中的深度分布，发现语义类别在深度图中可以轻松分离（解耦），因为在特定场景（例如城市场景）下，它们遵循相似的分布。因此，我们提出了一个新的深度感知框架，该框架包含深度上下文过滤器（DCF）和一个跨任务编码器。具体而言，DCF利用深度信息去除与现实世界目标训练样本不匹配的非现实类别。另一方面，多模态数据可以提高深度表示的性能，因此有效利用这些深度多任务特征以提高最终预测的准确性显得尤为关键。我们提出的跨任务编码器包含两个特定的头部，用于为每个任务生成中间特征，并且包含一个自适应特征优化模块（AFO）。AFO鼓励网络通过端到端的方式来优化融合的多任务特征。具体来说，所提出的AFO采用了一系列Transformer模块来捕捉区分不同类别所需的关键信息，并为区分性特征分配高权重，反之亦然。

我们的主要贡献如下：

（1）我们提出了一个简单的深度引导上下文过滤器（DCF），以显式利用深度图中隐藏的关键语义类别分布，增强跨域信息混合的现实性，并优化跨域布局混合。

（2）我们提出了一个自适应特征优化模块（AFO），使跨任务编码器能够利用区分性的深度信息，并将其嵌入到视觉特征中，从而共同促进语义分割和伪深度估计。

（3）尽管方法简单，但通过广泛的消融实验验证了我们提出的方法的有效性。尽管使用的是伪深度，我们的方法在两个常用的场景自适应基准上仍然取得了具有竞争力的准确性，即在GTA→Cityscapes任务上达到77.7 mIoU，在Synthia→Cityscapes任务上达到69.3 mIoU。

Method

1. Problem Formulation

在一般的 UDA 设置中, 标签丰富的合成数据被用作源域 , 而标签稀缺的真实世界数据被视为目标域。例如，我们在源域中从源域数据采样个标记的训练样本 , 其中是第 i 个样本数据, 就是对应的语义分割真实标签，是深度估计任务的标签。相应的，我们有 m 个从目标域数据采样的未标记目标图像 , 被标记为 , 其中是目标域中第 i 个的未标记样本, 是深度估计任务的标签。由于公共数据集不支持深度信息标注, 因此我们采用了现成模型可以简单生成的伪深度图。

2. Depth-guided Contextual Filter

在UDA中，最近的工作通过混合像素的策略来生成跨域增强样本。典型的混合是从源域图像复制一组像素，并将这些像素粘贴到目标域图像的一组像素。由于源和目标领域数据之间的不同布局，要想制作高质量的跨领域混合样本进行训练对这种普通方法具有挑战性。为了减少噪声信号并使用真实世界的布局模拟增强的训练样本，我们提出了Depth-guided Contextual Filter来减少跨域混合的噪声像素。

基于大多数语义类别通常属于有限深度范围的假设，我们引入DCF，将目标深度图划分为几个离散的深度区间。DCF的实现在Algorithm中用伪代码表示如下：

Algorithm

DCF的实现被表示为Algorithm 1中的伪代码，其中图像和对应的语义标签是从源域数据中采样的。图像和深度标签来自目标域数据。然后生成伪标签：

对于给定真实世界目标输入图像 , 我们有对应的伪标签和目标域的深度图组合。在每个深度间隔中，对于每个类都是可以预先计算。例如，深度间隔处的类别 i 的密度值被计算为。所有的密度值构成目标域图像中的深度分布。然后我们随机选择源图像上的一半类别。在实际过程中，我们应用二进制掩码来表示相应的像素。然后, 朴素跨域混合图像和混合标签可以公式化为:

⊙表示掩模和图像之间的逐元素乘法, 图 2 显示了原始混合图像。可以观察到, 由于两个域之间的深度分布差异, "Building"类别的像素从源域混合到目标域的过程中, 产生了不真实的图像。使用这样的训练样本进行训练将损害上下文学习。因此, 我们建议对混合图像中与深度密度分布不匹配的像素进行过滤。初始混合后, 我们在每个深度区间重新计算每一类的密度值。例如处的类 i 的新密度值表示为 , 然后，我们计算每个粘贴类别的深度密度分布差异，并将深度间隔处的类别 i 的差异表示为旦超过该类别的阈值，这些粘贴的像素就会被删除。执行 DCF 后，我们确认最终要混合的真实像素并构造一个深度感知的根据当前目标图像的深度布局动态变化的二进制掩模，

然后生成过滤后的混合样本。在实践中，我们直接应用更新过的深度感知掩模来替换原始掩模。因此，新的混合样本和标签如下：

过滤后的样本如图2所示。由于“sky”和““terrain””等大物体通常聚集并占据大量像素，而小物体在一定深度范围内只占据少量像素，因此我们设置不同的像素。每个类别的过滤阈值。因为没有可用的真实label的基本事实，所以DCF对目标域使用伪语义标签。由于早期标签预测不稳定，我们采用warmup策略在10000次迭代后执行DCF的时候。输入图像、简单混合样本和过滤样本的示例如图2所示。经过DCF模块处理后的样本具有来自源域的像素与目标域的深度分布相匹配，帮助网络更好地处理域差距。

3. Multi-task Scene Adaptation Framework

为了利用分割和深度学习之间的关系，我们引入了一个多任务场景适应框架，包括高分辨率语义编码器和具有特征优化模块的跨任务共享编码器，如图3所示。框架整合并优化了深度信息的融合，以改进最终的语义预测。

High Resolution Semantic Prediction. 大多数监督方法使用高分辨率图像进行训练，但常见的场景适应方法通常使用全分辨率一半的图像随机裁剪。为了减少场景适应和监督学习之间的域差距，同时保持GPU内存消耗，我们采用高分辨率编码器来编码全分辨率一半的图像。为了缩小场景适应和监督学习之间的领域差距，同时保持GPU内存消耗，我们采用高分辨率编码器将HR图像作物编码为深度HR特征。然后使用语义解码器生成HR语义预测。这里，我们采用交叉熵损失进行语义分割：

这里和都是高分辨率语义预测的结果。 是源域的 one-hot 语义标签, 是深度感知融合域的 one-hot 伪标签。

Adaptive Feature Optimization. 除了高分辨率编码器之外，我们还使用另一个跨任务编码器来编码两个任务共享的输入图像。深度图富含空间深度信息，但是深度信息直接与视觉信息的简单串联会造成一些干扰，例如相似深度位置的类别已经可以通过视觉信息很好地区分，注意力机制可以帮助网络选择多任务信息中的关键部分。在所提出的多任务学习框架中，视觉语义特征和深度特征分别由视觉头和深度头生成。如图 3 所示，应用批量归一化后，自适应特征优化模块将归一化的输入视觉特征和输入深度特征连接起来，以创建融合的多任务特征：

CONCAT(,)表示串联操作。融合的特征被输入到一系列转换器块中，以捕获两个任务之间的关键信息。注意力机制自适应地调整深度特征嵌入视觉特征的程度。

是transformer参数。Transformer blocks的学习输出是权重图γ，它乘回到输入视觉特征和深度特征，从而为每个任务产生优化的特征。

表示卷积参数, 表示卷积运算, 表示 sigmoid 函数。权重矩阵执行多任务特征的自适应优化。然后将融合后的特征输入不同的解码器以预测不同的最终任务,即视觉和深度任务。输出特征本质上是包含关键深度信息的多模态的特征。

其中⊙表示逐元素乘法。然后，优化的视觉和深度特征被输入多模通信模块进行进一步处理。多模态通信模块通过迭代使用 transformer blocks 来细化两个任务之间关键信息的学习。在特征优化完成后, 推断仅仅基于视觉输入。最终的语义预测和深度预测可以通过视觉头和深度头根据最终视觉特征和深度特征生成。与高分辨率预测类似，这里我们使用交叉熵损失进行语义损失计算：

我们还在源域使用berHu损失进行深度回归：

其中，和分别是预测的和真实语义标签图。根据SPIGAN[61]和Suman Saha[63]的工作，我们采用了反向Huber损失函数[71]，其定义为：

其中H是正阈值，我们将其设置为最大深度残差的0.2。最后，总损失函数为：

其中超参数深度是损失重量。考虑到我们的主要任务是语义分割, 深度估计是辅助任务, 我们经验地得出 , 我们还设计了消融研究, 以改变深度任务的权重参数的数量级为或。

Experiment

Implementation Details

数据集。 我们在两个场景适应设置上评估了所提出的框架，即，GTA→Cityscapes和SYNTHIA→Cityscapes。GTA5数据集是从视频游戏收集的合成数据集，其包含由19个类注释的24966个图像。对于深度估计，我们采用了由Monodepth 2模型生成的深度信息，该模型仅在GTA图像序列上训练。SYNTHIA是一个包含9400个训练图像和16个类别的合成城市场景数据集。这里直接使用SYNTHIA所提供的模拟深度信息。GTA和SYNTHIA作为源域数据集。目标域数据集是Cityscapes，它是从真实世界的街景图像中收集的。Cityscapes包含2975个未标记的训练图像和500个验证图像。Cityscapes的分辨率为2048×1024，通用协议将尺寸缩小到1024 × 512以节省存储器。我们利用并集交集（IoU）来计算每个类的性能，并利用所有类的并集交集平均值（mIoU）来报告结果。该代码基于Pytorch。我们将使我们的代码开放源代码，以重现所有实验结果。

实验设置。 我们采用DAFormer网络和MiT-B5骨干网实现高分辨率编码器，采用DeepLabV 2网络和ResNet-101骨干网实现跨任务编码器，来减少内存消耗。所有主干均使用ImageNet预训练进行初始化。我们的训练过程基于具有跨域混合的自训练方法，并通过我们提出的深度引导上下文过滤器来增强。输入图像分辨率对于跨任务编码器是全分辨率的一半，对于高分辨率编码器是全分辨率。我们使用相同的数据增强，例如，颜色抖动和高斯模糊，并根据经验设置伪标签阈值0.968。我们在Tesla V100 GPU上设置batch size大小为2训练网络，进行40000次迭代。

Comparison with SOTA

GTA→城市景观结果。

我们在GTA到Cityscapes的数据集迁移上展示了我们的实验结果。表1中显示了GTA到Cityscapes的结果，并用粗体标出了最佳成绩。可以看出，我们的方法相比于最先进的MIC[1]方法，在平均交并比（mIoU）上从75.9提升到了77.7，表现出了显著的性能改进。通常情况下，占据像素较少的类别较难适应，并且通常具有相对较低的IoU性能。然而，我们的方法在大多数类别上表现出有竞争力的IoU提升，特别是在小物体上，例如，““Rider”,”提高了+5.7，“Fence”提高了+5.4，“Wall”提高了+5.2，““Traffic Sign”提高了+4.4，“Pole”提高了+3.4。这一结果表明了所提出的上下文过滤器和跨任务学习框架在上下文学习中的有效性。我们的方法同样也对那些占据图像大量像素的大类别的mIoU性能有所提高，但提升幅度较小，比如“Pedestrain”提高了+1.8，“Bike”提高了+1.1，这可能是因为丰富的纹理和颜色信息已经具备了识别这些相对容易的类别的能力。上述观察也在图4中定性地反映出来，在该图中我们展示了所提出的方法与之前强大的基于变换器的方法HRDA[23]和MIC[1]的分割结果对比。用白色虚线框突出显示的定性结果表明，所提出的方法在挑战性的“Traffic Sign”和大类别“Terrain”上的预测质量有了大幅度的改善。

Synthia→城市景观的结果。

我们在表1中展示了我们在SYNTHIA→cityscape上的结果，结果表明我们的方法的性能得到了持续的改进，与最先进的方法MIC[1]相比，从67.3增加到69.3 (+2.0 mIoU)。特别是我们的方法将具有挑战性的“SideWalk”区块的IoU性能从50.5提高到63.1 (+12.6 mIoU)。同样值得注意的是，我们的方法在分割大多数个体类别方面仍然具有竞争力，并且在“Road”上获得+6.8，“Bus”上获得+6.6，“Pole”上获得+3.9，“Road”上获得+3.7，“Wall”上获得+3.2，“Truck”上获得+2.9。

Ablation Study on Different Scene Adaptation Frameworks

我们将我们的方法与GTA→Cityscapes上的不同场景适应架构相结合。表4显示我们的方法在不同网络架构的不同方法中实现了一致且显着的改进。首先，我们的方法将最先进的性能提高了+1.8 mIoU。然后，我们在基于Transformer Backbone的两种强大方法上评估所提出的方法，在DAFormer和HRDA上分别产生+3.2 mIoU和+2.3 mIoU性能提升。其次，我们在具有ResNet-101主干的DeepLabV2架构上评估我们的方法。我们表明，我们将基于CNN的跨域混合方法（即 DACS）的性能提高了+4.1 mIoU。消融研究验证了我们的方法在利用深度信息来增强跨域混合方面的有效性，不仅在基于Transformer的网络上，而且还在基于CNN的架构上。

Ablation Study on Different Components of theProposed Method

为了验证我们提出的组件的有效性，我们训练了从M1到M4的四种不同模型，结果如表3所示。“ST Base”是指具有语义分割分支和深度回归分支的自训练基线。“Naive Mix”表示跨域混合策略。“DCF”代表所提出的深度感知混合（深度引导上下文过滤器）。“AFO”表示提出的自适应特征优化模块，我们使用两种不同的方法来执行AFO。首先，我们利用通道注意力（CA），它可以沿着通道维度选择有用的信息来执行特征优化。在该方法中，融合特征由SENet [78] 自适应优化，输出是一个加权向量，乘以视觉和深度特征。我们用“AFO（CA）”来表示这种方法。其次，我们利用变压器块的迭代使用来自适应优化多任务特征。在这种情况下，变压器块的输出是加权图。然后使用多模态通信（MMC）模块来整合来自深度预测的丰富知识。我们将此方法表示为“AFO（Trans + MMC）”。M1是基于DAFormer架构的深度回归自训练基线。M2 添加了跨域混合策略进行改进，并显示出76.0 mIoU的竞争结果。M3是带有深度引导上下文滤波器的模型，将性能从76.0 mIoU 提高到77.1 mIoU (+1.1 mIoU)，这证明了在深度信息的帮助下将混合训练图像转移到真实世界布局的有效性。M4添加了多任务框架，利用通道注意力（CA）机制将判别深度特征融合到视觉特征中。分割结果小幅增加（+0.2 mIoU），这意味着CA可以在一定程度上帮助网络自适应地学习聚焦或忽略来自辅助任务的信息。M5 是我们提出的深度感知多任务模型，具有深度引导上下文过滤器和自适应特征优化（AFO）模块。与M3相比，M5的mIoU增加了+0.6，从77.1增加到77.7，这表明使用Transformer 进行多模态特征优化以促进上下文学习的有效性。

Conclusion

在这项工作中，我们引入了一个新的深度感知场景自适应框架，有效地利用深度的指导，以增强数据增强和上下文学习。提出的框架不仅通过激励真实世界布局的深度分布指导明确地优化跨领域混合，还引入了一个跨任务编码器，自适应优化多任务特征并专注于有助于上下文学习的具有区分性的深度特征。通过将我们的深度感知框架集成到现有的基于Transformer或CNN的自训练方法中，我们在两个广泛使用的基准测试中实现了最先进的性能，并在小规模类别上取得了显着的改进。大量的实验结果验证了我们将训练图像转移到真实世界布局的动机，并证明了我们的多任务框架在提高场景适应性能方面的有效性。