大数跨境
0
0

ECCV'24|OMG:已开源,遮挡友好的个性化多概念生成新框架

ECCV'24|OMG:已开源,遮挡友好的个性化多概念生成新框架 极市平台
2024-08-26
0
↑ 点击蓝字 关注极市平台

作者丨孔哲 中山大学
编辑丨极市平台

极市导读

 

本文提出了一种两阶段的个性化生成框架OMG,旨在解决多概念个性化生成过程中遇到的遮挡问题。此外,本文还提出了一种概念噪声混合方法,通过这种方法,OMG无需经过任何训练就能轻松地与各种单概念个性化生成方法相结合从而解决身份退化问题。大量实验结果证明,OMG在多概念个性化方面展现出了卓越的性能。 >>加入极市CV技术交流群,走在计算机视觉的最前沿

论文:https://arxiv.org/abs/2403.10983

代码:https://github.com/kongzhecn/OMG

Demo:https://huggingface.co/spaces/Fucius/OMG

项目:https://kongzhecn.github.io/omg-project/

引用:

@inproceedings{kong2024omg,
  title={Omg: Occlusion-friendly personalized multi-concept generation in diffusion models},
  author={Kong, Zhe and Zhang, Yong and Yang, Tianyu and Wang, Tao and Zhang, Kaihao and Wu, Bizhu and Chen, Guanying and Liu, Wei and Luo, Wenhan},
  booktitle={Proceedings of the European conference on computer vision (ECCV)},
  year={2024}
}

摘要

个性化生成是文本到图像生成中的一个重要问题,特别是当涉及到多概念个性化生成时,其挑战性更是不言而喻。尽管现有的多概念个性化生成方法已经取得了一定的进展,但在保持身份特征(ID保持)、处理遮挡问题以及确保前景与背景在光照上的一致性等方面,仍存在着诸多不足。针对这些问题,本文提出了一种新颖的OMG框架。该框架采用两阶段的采样方法解决现有模型的局限性。

具体来说,该框架通过一个两阶段的采样解决方案来实现,第一阶段负责布局生成和视觉理解信息的收集,以处理遮挡问题;第二阶段则利用收集到的视觉理解信息和设计好的噪声混合策略,在考虑遮挡的同时通过本文提出的概念噪声混合方法整合多个概念。本文发现概念噪声混合的起始去噪时间是保持身份和布局的关键。除此以外,OMG可以轻松地与各种单概念个性化生成方法(如LoRA和InstantID)相结合,无需进行额外的调整即可直接利用社区中的丰富模型资源(例如civitai.com上的模型)。这种兼容性使得OMG框架在实际应用中具有更广泛的适用性和更高的效率。

方法

方法的整体示意图如下图所示。在第一阶段,该方法主要负责生成布局并处理遮挡问题,同时保存整个过程中获取的注意力图。此外,通过视觉理解技术,我们还能确定不同角色的掩码位置。进入第二阶段,系统会利用第一阶段收集到的图像布局信息和位置信息,准确地将角色ID注入到对应的区域中。

1.一阶段:视觉理解信息的准备

首先,我们使用一个描述图像中多个对象的文本提示 p 输入 T2I 模型,生成一张非个性化的图像。在这个文本提示 p 中,仅包含类名(如“man”或“woman”),而不包含触发定制化图像生成的特殊标识符(如“[v] man”或“[v] woman”)。因此,一张非定制化的、包含了合理布局的图像 可以通过以下公式得到:

本文采用的文本到图像生成的模型 T2I 为 SDXL。T2I 模型的 UNet 网络由自注意力层和交叉注意力层构成。在去噪过程中,视觉嵌入和文本特征通过交叉注意力层进行融合,为每个文本标记生成交叉注意力图 A。A 的计算过程如下:

在每个去噪步骤 t , 将文本提示 p 输入 T 21 模型后, 可以计算得到交叉注意力图 ,它包含 个注意力层对应的空间注意力图 ,我们将这些注意力图进行保存。

在第二阶段需要使用噪声概念混合方法将特定概念 ID 注入图像的特点区域。为了获取这些区域的位置,在第一阶段我们使用图像理解的方法获取概念掩码区域 。具体来说,通过输入生成的图像 和 p 中的类别名称 (例如,"man"或"woman"),可以得到对应 k 个概念掩模 , 其中 k 是我们要定制化生成的概念数量。这样,我们就可以根据这些概念掩模来指导第二阶段的噪声注入过程,从而实现多概念的定制化生成。

2.二阶段:多概念个性化去噪

1)概念噪声的混合:

为了降低额外的训练开销并实现即插即用的功能,OMG 在进行第二阶段多概念定制化生成时,不采用 LoRA 融合方法,而是利用多个针对单一概念的模型分别进行推理,并将各个模型的预测噪声进行融合。此外,每个单概念模型仅负责特定区域的个性化生成,这种方法能有效缓解身份退化问题。

都对应一个定制化的生成模型 和该区域对应的文本提示 。因此, 在每一个时间步 t ,第 i 个概念对应的预测噪声为:

其中, 需要包含触发生成第i个概念的特殊标识符。

在第 t 步, 输入全局文本提示 p ,经过 T 2 I 模型生成了包含遮挡布局的全局输出 。由于 是未包含个性化的噪声, 为了将特定的概念 注入 , 我们需要根据概念掩码 M 重写 中的特定区域。具体过程为:

通过噪声级概念混合技术,我们可以在每个时间步将不同概念的 ID 注入到同一个噪声中,从而实现多概念的定制化生成。

2)遮挡布局的保持:

在第一阶段,模型生成了图像的基本结构。尽管第二阶段的初始噪声以及全局文本提示与第一阶段完全相同,但由于概念噪声的混合,第二阶段每一步最终混合得到的噪声与第一阶段截然不同。在生成过程中,模型的自注意力图对图像结构产生了极大的影响。为了确保第二阶段生成的图像结构与第一阶段保持一致,避免布局变化导致的概念区域混乱,本文提出在第二阶段生成图像的过程中,使用第一阶段保存下来的各层各时间步的注意力图 来替换掉第二阶段模型计算出的注意力图

3.概念噪声混合的起始步长

在第二阶段,不同时间步开启概念噪声混合对最终生成结果的影响显著。如下图所示,从左至右分别代表:从一开始(第 50 步,因采用 DDIM 采样器)就开启概念噪声混合;第 0 步才开启,实际上等同于未开启,即与第一阶段的结果完全相同;以及在 0-50 步之间开启概念噪声混合的情况。

在第二阶段,不同时间步开启概念噪声混合对最终生成结果的影响显著。如下图所示,从左至右分别代表:从一开始(第 50 步,因采用 DDIM 采样器)就开启概念噪声混合;第 0 步才开启,实际上等同于未开启,即与第一阶段的结果完全相同;以及在 0-50 步之间开启概念噪声混合的情况。

此外,在较早的步骤中,前景和背景之间的光照不协调现象尤为明显。随着时间步数的增加,光照逐渐趋于一致,这暗示光照与图像布局信息之间可能存在某种关联。

实验

1.单概念和多概念的实验结果

2.消融实验

结论

我们提出了OMG个性化的生成框架,用于生成遮挡友好的多概念个性化图像。利用该框架,我们的方法解决了多概念生成中普遍存在的遮挡问题。所提出的概念噪声混合进一步缓解了身份退化问题。实验结果表明,即使概念发生遮挡,OMG也能成功生成高质量的图像。此外,我们的方法无需额外训练即可与各种单概念定制模型无缝结合,增强了其通用性和实用性。


公众号后台回复“数据集”获取100+深度学习各方向资源整理

极市干货

技术专栏:多模态大模型超详细解读专栏搞懂Tranformer系列ECCV2024论文解读极市直播
技术综述:四万字详解Neural ODE:用神经网络去刻画非离散的状态变化transformer的细节到底是怎么样的?Transformer 连环18问!

点击阅读原文进入CV社区

收获更多技术干货

【声明】内容源于网络
0
0
极市平台
为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
内容 8155
粉丝 0
极市平台 为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
总阅读919
粉丝0
内容8.2k