ECCV'24｜生成质量提升80%！清华AIR提出SCP-Diff：真假难辨的驾驶场景生成新方案



ECCV'24｜生成质量提升80%！清华AIR提出SCP-Diff：真假难辨的驾驶场景生成新方案

极市平台

2024-08-20

↑ 点击蓝字关注极市平台

作者丨Huan-ang Gao等

来源丨自动驾驶之心

编辑丨极市平台

极市导读

本文提出“Noise Prior”的解决方案，在Diffusion推理过程中对噪声加入先验信息，在Cityscapes，ADE20K和COCO-Stuff数据集上取得了State-Of-The-Art的结果，并且将Cityscapes数据集上的FID值从44.5提升到10.5。 >>加入极市CV技术交流群，走在计算机视觉的最前沿

近日，来自清华大学智能产业研究院（AIR）助理教授赵昊老师的团队，联合梅赛德斯-奔驰中国，中国科学院大学和北京大学，提出了一种根据语义图生成对应图像的新方法。研究重点关注图像生成中的Semantic Image Synthesis (SIS) 任务，解决了之前方法生成图像质量较低，和语义图不够符合的问题。团队给出了“Noise Prior”的解决方案，在Diffusion推理过程中对噪声加入先验信息，这一方法简单有效，在Cityscapes，ADE20K和COCO-Stuff数据集上取得了State-Of-The-Art的结果，并且将Cityscapes数据集上的FID值从44.5提升到10.5。

论文链接： https://arxiv.org/pdf/2403.09638

项目地址： https://air-discover.github.io/SCP-Diff/

1 背景介绍

Semantic Image Synthesis (SIS) 任务，是给定一张语义图，目的生成高质量的并且和这张语义图相符的图像。在自动驾驶和具身智能场景中，该任务有很重要的意义，可以让用户生成符合特定摆放要求的图像。然而，现有的方法大多是基于生成对抗网络 (Generative Adversarial Network, GAN) 的，这些方法生成的图像质量较低，不足以投入到实际应用中去。

随着Diffusion等模型的出现，生成式模型生成图像的质量得到的进一步的提升。其中以ControlNet为代表的方法，可以使得用户对生成的图像内容进行控制（比如生成符合某张语义图的图像），然而这些方法生成的图像会出现质量较差和与用户输入的控制不相符的情况，即和所期望的生成图像还有一定的差别。为了探究这个问题，我们做了一系列的实验，发现生成图像和所期望图像的差别的主要不是来源于微调过程，而是来源于训练过程和推理过程中使用的噪声分布不匹配。

为了解决训练和推理使用的噪声分布不匹配的问题，我们针对SIS任务，在推理阶段引入了空间噪声先验和类别噪声先验，使得ControlNet，FreestyleNet等以diffusion为基础的方法可以不需要重新微调即可生成更高质量的图像。通过简单地引入噪声先验，我们在Cityscapes，ADE20K和COCO-Stuff三个数据集上的SIS任务上的指标均取得了State-of-The-Art (SoTA) 的结果。 如图1和图2所示。图1（b）中我们对真实图像和生成图像做了随机打乱，在本文的最后会公布哪一张是真实图像。图2对比了OASIS，ControlNet和我们方法的生成结果，我们方法的生成质量明显高于另外两种方法。

2 先验知识与观察

2.1 先验知识

给定一张语义图和代表语义图的高和宽, 语义图的每个像素代表语义标签。Semantic Image Synthesis (SIS) 任务目标是设计一个函数, 输入是语义图, 输出是符合该语义图条件的 RGB图像。

现有的State-Of-The-Art的方法ControlNet, 在训练过程中, 目标是从一个时间步的加噪的图像还原出原始图像。在时间步时刻, 去噪模型可以表示为:

其中是图像经过VQGAN编码后得到的结果, 代表时间步 t 的累积缩放乘积。模型以等条件作为输入, 预测 , 形式化表示为 , 这里代表对输入的文字的编码, 代表语义图。在ControlNet模型中，一个不可训练的分支使用Stable Diffusion预训练好的权重，用来处理和。同时, ControlNet复制Stable Diffusion的编码器部分用来处理 , 这两个分支通过零卷积层进行连接。ControlNet的损失函数定义为:

在推理过程中, ControlNet从标准正态分布采样出一个 , 然后从到执行反向去噪过程:

经过步反向去噪过程后, 我们能得到 , 经过一个VQGAN解码器后就可以得到图像。

2.2 ControlNet实验观察

简单地通过微调ControlNet会出现一些质量不好的结果, 比如会出现一些奇怪的子结构, 和语义图不够符合等。为了调研为什么会出现这种现象，本文在ADE20K上做了相应的分析实验，如图三所示。图三中的FID表示了生成图像和ADE20K真实图像之间的差别, 棕色虚线代表ControlNet直接从标准正态分布采样然后经过步反向去噪过程的结果。黑色的折线代表从采样然后经过步反向去噪过程的结果, 其中定义为:

我们可以看出, 当时, 从进行步的反向去噪生成的图像, 要比从进行步的反向去噪生成的图像的FID有显著地降低。 这个分析实验揭示出了之前很接近的假设是不可靠的。因此引入"噪声先验"对于提升以Diffusion为基础的方法在SIS任务上的性能有着重要的意义。

3 方法

本文的方法分为两个部分：第一部分是噪声先验的准备，这一部分首先计算相应训练集图像经过VQGAN编码得到的特征图的均值和方差来构建类型噪声先验和空间噪声先验；第二部分是利用我们刚才得到的噪声先验进行推理，得到高质量的生成图像。

3.1 空间噪声先验和类别噪声先验

给定数据集中的N张latent images和他们对应的语义图 , 我们的目标从中得到噪声先验 , 使得其和训练过程中得到的噪声分布一致, 从而减小推理过程中的误差。

3.1.1 空间噪声先验

我们假定每一个对最后学习到的训练噪声都有相等的影响，我们定义空间噪声先验：

其中表示Hadamard乘积。为了简化问题, 我们不对空间tokens之间的相关关系进行建模, 而是将每个位置的spatial tokens当作独立的边际分布。在推理过程中。我们获取从时刻开始去噪的噪声可以从下面分布中采样：

我们从该分布中采样的噪声经过步反向去噪过程后，经过一个VQGAN解码器即可得到高质量图像。

对于空间先验的作用，本文进行了一个案例研究，如图5所示。从图中分析可知，使用空间先验的模型在构建场景布局时表现出更广泛的感受野，而使用普通先验的模型则迅速将注意力集中在狭窄的局部区域。这种差异揭示了为什么使用空间先验的模型能够生成完整的场景，并且减少了奇怪的子结构，而使用标准正态分布的模型的输出则更像是根据相似形状的模板进行裁剪和粘贴对象。

3.1.2 类别噪声先验

尽管空间先验的方法在全局关注整个场景方面取得了成功，但在融入类别信息方面仍显不足。比如上图2中，会在天空中生成不符合语义类别标签的建筑物。本文认为这是空间噪声先验和ControlNet的控制分支有一定程度的不兼容导致的（因为空间噪声先验融合了不同类型模式的先验）。这种不匹配会沿着去噪轨迹累积，使得去噪过程进一步地偏离预定轨迹。

因此, 我们引入了基于类别的噪声先验。首先, 我们通过最近邻下采样语义图到。接下来, 对于 N 张reference images, 我们为其个类别中的每一类各自创建了一个独立的集合 , 每个集合中包含维度为的tokens。接下来, 我们为每一类计算其tokens的均值和方差, 得到:

的定义和上面的是一样的。

为了证明类别噪声先验的作用，本文进行了一个案例研究，如图6所示。我们发现从类别噪声先验开始反向去噪过程可以在图像中物体形成阶段增强对语义标签的理解能力，比如图6（b）中图像生成中我们使用“Tree”类别来query score map，加入类别噪声先验的方法会将更多的注意力放到“Tree”真正应该在的区域，而不会像ControlNet一样分散。

3.2 联合先验

为了融合空间噪声先验和类别噪声先验的优点, 我们提出了联合先验（Joint Prior）。 联合先验的计算过程可以表示为, 对于 N 张reference图像, 我们用不同的几何来存储在特定位置特定类别的先验信息, 具体的, 对于 , 我们可以得到:

当给定对应的sample size过小时, 我们认为估计是不准确的, 我们使用类别先验。的定义同空间先验。

3.3 反向去噪步数的影响

在理想情况下，去噪时间步长的系数需要进行仔细地调整。较小的意味着向计算出的先验中注入较低水平的噪声，从而减少所需的去噪步骤数量，并加快推理过程。然而，在联合先验的框架下，由于我们将来自不同空间位置和类别的编码标记视为独立变量而忽略它们之间的相关性，需要更多的自注意力机制来逐步将边际统计转变为联合建模，因此需要更多的去噪步骤。我们在实验中也对的值做了一系列的消融实验，具体可见4.3.1。

4 实验

4.1 实验设置

我们在Cityscapes，ADE20K和COCO-Stuff三个数据集上进行了实验。为了评估我们生成的图像，我们使用了（1）平均交并比（mean Intersection-over-Union, mIoU）和像素准确率（Pixel Accuracy, Acc）来评估我们生成的图像和语义图的相符程度。（2）Fréchet inception distance（FID）来衡量生成图像的质量（3）LPIPS和MS-SSIM来衡量生成图像的丰富性（4）用户测试（User Study）来衡量我们的生成结果。

我们使用张图像来计算噪声先验。对于Cityscapes和ADE20K数据集, 他们各自的噪声先验被应用在已经在这两个数据集微调好的ControlNet的推理过程中。微调过程在A100 80G GPUs上进行,使用的batch size大小为 16 , 使用的学习率微调 100,000 步, 原始Stable Diffusion的解码分支中的参数在微调过程中也会进行调整。对于COCO-Stuff数据集, 我们将我们的方法应用在已经微调好的 FreestyleNet模型中, 我们使用官方提供好的checkpoint。

4.2 主实验结果

4.2.1 不同类型的噪声先验的比较

我们定性和定量地比较了不同噪声先验对于SIS生成效果的影响，结果如表1和图7所示。其中Normal Prior代表从标准正态分布进行反向去噪过程。表1显示，联合先验在图像质量（FID）和与提供的语义图的一致性（mIoU 和 Acc）方面，优于ControlNet所使用的标准正态分布先验。其中mIoU 提升了 2.78，FID 显著降低了12.82。仔细观察生成的图像可以发现，尽管 ControlNet相较于 OASIS 更擅长生成边缘柔和且模糊效果较少的图像，但它在场景布局组织方面表现不佳，往往无法正确地和提供的语义图对齐，例如将建筑物错误地放置在天空区域。相比之下，我们提出的联合先验解决了这些问题，显著提升了图像的真实感。

4.2.2 和SoTA模型的比较

与SIS领域的最新进展相比，我们提出的联合先验（或 SCP-Diff）有显著地效果提升。如表2所示，ControlNet 通过将生成建模的重点从像素空间转移到隐空间，已经显著超越了早期的方法，得益于其合成高分辨率图像的能力。我们的方法通过解决扩散模型推理过程中，使用的噪声分布和实际不同的问题，进一步放大了这一优势，从而在 Cityscapes和 ADE20K 数据集上取得了SoTA结果。在COCO-Stuff 数据集上，我们将提出的联合先验应用于FreestyleNet方法上，也取得了 FID 值降低 3.1的性能提升。

4.3 消融实验结果

4.3.1 对去噪步数的研究

通过减小中的 , 其中 , 我们可以优化传统上耗时的Stable Diffusion的采样方法。如第 3.3 节中所讨论的，我们进行了实验观察对生成结果质量的影响。从图8可以看出，对于两个数据集，最佳的选择在之间。图8中两条曲线中观察到的趋势模式相似，表明在应用噪声先验时具有一定的稳健性。

4.3.2 对生成图像的多样性的研究

参考 OASIS的方法，我们通过分析从同一标签图生成的一组图像（称为一个批次）中的变化来判断生成图像的多样性，我们使用 MS-SSIM 和 LPIPS 来作为评估指标。在实验中，我们为每个标签图生成20张图像，计算这些图像之间每对之间的平均指标，然后将这些分数在所有标签图上取平均。从表3的结果可以看出，我们的联合先验相比ControlNet的多样性评分略有降低。这一结果是可以预见的，因为在推理过程中引入先验本质上是在多样性与提高质量之间寻求平衡。

4.3.3 对Reference Images数量的研究

为了研究Refercence Images数量的影响，我们在图9中进行了消融实验。图9中显示，随着样本数量的增加，FID逐渐降低。即使参考图像的数量有限，FID分数仍显著低于原始ControlNet。此外，为了检验样本多样性是否有帮助，我们使用CLIP图像编码器（ViT-B/32）对10,000张图像进行编码，并在特征空间内进行最远点采样。我们选择了距离最大的100张图像，并使用这些图像来计算联合先验。图9中的散点图显示，图像的多样性确实有助于最终图像质量的提升。

4.3.4 User Study

参考 ControlNet的方法，我们进行了User study，邀请参与者分别对由三种方法生成的500组图像（见表4）进行排名，依据“显示图像的质量”和“与给定语义标签的一致性”两个标准进行评价。我们采用平均人类排名（AHR）作为衡量用户偏好的指标，参与者在1到3的范围内对每个结果进行评分，3分为最佳。根据表4中的平均排名，用户明显更倾向于我们方法生成的结果。

5 总结

在本文中，我们通过引入推理噪声先验，解决了在微调ControlNets用于语义图像合成（SIS）任务时的图像质量较低与和语义图不一致的问题。我们的SCP-Diff表现出很好的性能，在Cityscapes，ADE20K和COCO-Stuff数据集上都实现了SoTA。我们希望我们的工作和高质量生成的图像能够为研究界的未来工作提供灵感。

注：图1中真实图像均在左边。