240-A1｜图像编辑（基于DiT，大型数据集）；群体个性化身份泄露问题，身份保持面部修复；图像生成工作流优化；安全与可靠性问题

AIGC Research

2024-11-24

导读：PaperDaily｜Day 240

AIGC Research <PaperDaily>

主编｜庄才林（Cailin Zhuang）
技术支持｜胡耀淇（Yaoqi Hu）
发布日期｜2024年11月22日｜周五

基于DiT的无需训练图像编辑，大规模图像编辑数据集；群体照片个性化的身份泄露问题，身份保持的面部图像修复；ComfyUI工作流的自动优化；安全与可靠性问题

Topic: Image Generation｜Editing｜DiT

Stable Flow: Vital Layers for Training-Free Image Editing

Stable Flow

2024-11-21｜Snap Research, HUJI, Tel-Aviv U, Reichman U｜⭐️🟡

http://arxiv.org/abs/2411.14430v1
https://omriavrahami.com/stable-flow

概述

在近年来，生成模型的应用得到了前所未有的扩展，尤其是在内容合成和编辑方面。本文提出了一种名为Stable Flow的无需训练图像编辑方法，旨在通过选择性注入关注特征来实现一致的图像编辑。与传统的UNet架构相比，Stable Flow利用了Diffusion Transformer（DiT）架构的优势，尽管DiT在生成多样性方面存在一定限制。通过识别DiT中的“关键层”，本方法能够有效执行各种图像编辑任务，包括非刚性修改、对象添加和场景编辑。研究表明，利用这种方法能够在保持原始内容不变的同时，满足用户的编辑需求。

方法

本研究的方法主要分为以下几个步骤：

识别关键层：采用系统评估方法，通过分析不同层对生成图像的影响，确定DiT模型中的关键层。这些层在图像生成过程中发挥着重要作用。
特征注入机制：在关键层中注入源图像的注意力特征，通过并行生成目标图像和编辑图像，确保编辑过程中的一致性。该方法允许在编辑图像时仅改变需要修改的部分，而不影响其他区域。
真实图像编辑：为了支持真实图像的编辑，使用改进的逆欧拉常微分方程（ODE）求解器，将图像转换到潜在空间，并利用潜在扰动技术提高重建准确性，从而减少在编辑过程中可能出现的意外变化。

实验

实验部分包括多个方面的评估。首先，通过定性和定量的方法对Stable Flow与现有基线进行比较，验证其在图像编辑任务中的有效性。其次，进行用户研究，收集用户对编辑结果的偏好，评估目标提示遵循度、输入图像保留、真实感和整体编辑质量。最后，进行消融研究，分析不同组件对方法性能的影响。实验结果表明，Stable Flow在保持图像相似性和遵循文本提示方面表现优异，且用户反馈显示其在多个编辑任务中优于其他方法。

通俗易懂

在Stable Flow的方法中，我们主要是通过找出关键的“层”来进行图像编辑。想象一下，图像就像一层一层的蛋糕，每一层都有不同的功能。有些层负责处理简单的形状，有些层则处理更复杂的细节。我们首先通过比较不同层的效果，找出哪些层是最重要的，也就是“关键层”。接着，当我们想要编辑图像时，我们只在这些关键层中进行修改，这样可以确保只改变我们想改变的部分，而不影响其他部分。最后，为了处理真实的图像，我们使用一种特殊的技术，把图像转化成一种模型可以理解的形式，这样就能更好地进行编辑。通过这种方法，我们可以在不重训模型的情况下，轻松进行各种图像编辑。

GalaxyEdit: Large-Scale Image Editing Dataset with Enhanced Diffusion Adapter

2024-11-21｜Samsung, UCSD｜⭐️🟡

http://arxiv.org/abs/2411.13794v1

概述

在现代生成式人工智能领域，基于扩散的图像编辑模型取得了显著进展。然而，训练这些大规模模型所需的高质量标注数据仍然匮乏，尤其是在基于指令的图像编辑任务中，如对象的添加和删除。为了解决这一问题，本文提出了GalaxyEdit，一个大规模的图像编辑数据集，专注于对象的添加和删除操作。该数据集通过自动化的数据生成流程，结合生成式人工智能技术，旨在克服人工编辑和标注过程中的多重挑战，如人力成本、数据多样性限制和生成模型的不足。通过对SDv1.5模型的微调，研究表明，GalaxyEdit不仅能够处理更广泛的对象和复杂的编辑指令，还在FID分数上超越了现有的最先进方法，分别提高了11.2%和26.1%。

方法

本研究的方法主要包括以下几个步骤：

数据集生成：使用COCO数据集作为基础，经过对象检测和掩码生成，构建训练对。

对象检测和掩码生成：利用开源对象检测模型RAM和GroundingDINO，识别图像中的对象并生成相应的掩码。
规则和语义过滤：根据对象大小和关键词过滤不合适的对象，以提高数据质量。

掩码基础的图像修复：采用LaMa模型进行对象删除，确保修复效果良好。
指令生成：根据检测到的对象和其属性生成多样化的编辑指令，涵盖简单和复杂的编辑需求。
增强扩散适配器：引入基于Volterra的非线性交互层，提升控制网络与基础模型之间的信息交流能力，优化模型在复杂编辑任务中的表现。

实验

实验部分主要评估GalaxyEdit数据集的质量和模型的性能。首先，使用800K样本对SDv1.5模型进行微调，并在多个测试集上进行评估。通过对比不同模型在添加和删除任务中的表现，结果显示GalaxyEdit训练的模型在各项指标上均优于现有基线模型。此外，进行了人类评估，结果显示评估者对模型输出的指令遵循能力给予了较高评价，进一步验证了数据集的有效性和模型的优越性。

通俗易懂

在我们的方法部分，首先我们从一个包含大量图像的数据库（COCO）开始，使用智能程序来找出图像中的物体，并为这些物体生成遮罩。这就像给每个物体穿上一个透明的外衣，以便我们可以轻松识别和处理它们。接着，我们会根据物体的大小和类型，筛选出一些不合适的物体，确保我们只留下最有用的数据。然后，我们使用一种叫LaMa的工具，来“修复”图像中的物体，比如将某个对象删除后，自动填补其空白。最后，我们会生成各种编辑指令，比如“添加一个苹果”或“删除一个人”，这些指令会帮助我们的模型更好地理解用户想要的效果。通过这样的步骤，我们不仅能创建一个丰富多样的数据集，还能让我们的模型在处理这些指令时更加灵活和高效。

Topic: Image Generation｜ID｜Group Photo Personalization & ID Leakage, Face Restoration with ID Preservation

ID-Patch: Robust ID Association for Group Photo Personalization

ID-Patch

2024-11-20｜ByteDance, MSU｜⭐️🟡

http://arxiv.org/abs/2411.13632v1
https://byteaigc.github.io/ID-Patch/

概述

在个性化群体照片生成领域，ID-Patch是一种新颖的方法，旨在解决现有技术中存在的身份泄露问题。身份泄露是指在生成过程中，某个个体的面部特征会干扰其他个体的表现，导致面部相似度低、位置不准确以及视觉伪影的出现。ID-Patch通过为每个身份生成独特的ID补丁和ID嵌入，确保每个个体在合成图像中能够准确地反映其身份特征，并且能够有效地控制其在图像中的位置。实验结果表明，ID-Patch在身份相似度、位置关联准确性和生成效率等多个指标上超越了现有的基线方法，展现出其在复杂图像生成中的优势。

方法

ID-Patch方法的核心在于高效且稳健的身份与位置关联，具体分为以下几个步骤：

ID补丁和ID嵌入生成：从每个身份的面部特征中提取信息，生成ID补丁（小型RGB图像）和ID嵌入（特征向量）。ID补丁用于在生成图像中精确定位身份，而ID嵌入则用于增强面部细节。
控制网络的集成：将生成的ID补丁与条件图像结合，通过控制网络（ControlNet）实现身份的空间控制，确保每个身份在图像中的准确位置。
双阶段训练和推理：训练过程中分为两个阶段，初始阶段专注于ID补丁的生成，后续阶段引入ID嵌入以提升生成图像的相似度。推理时，前20%的时间步骤仅使用ID补丁，后续步骤结合ID嵌入，优化面部特征的细节表现。
多种条件的灵活应用：ID-Patch可以与多种空间条件（如姿势、边缘图或深度图）结合使用，增强生成图像的灵活性和控制力。

实验

在实验部分，ID-Patch的性能通过与现有技术（如OMG和InstantFamily）进行比较进行评估。实验设置包括：

数据集：使用1700万张单人图像和195万张多人图像进行训练，评估使用两个专用数据集，分别用于风格和身份的生成。
评估指标：主要评估四个维度：身份相似度、位置关联准确性、文本对齐度和生成时间。结果显示，ID-Patch在身份相似度（0.751）和位置关联准确性（0.958）上显著优于基线方法，并且生成时间（9.69秒）大幅减少。
消融实验：通过不同模块的去除，验证了ID补丁和ID嵌入对生成性能的重要性，确认了双阶段训练和推理的有效性。

通俗易懂

ID-Patch方法可以简单理解为一种个性化的照片生成技术，专注于让每个人在群体照片中看起来更真实。首先，它会从每个人的脸部特征中提取信息，生成一个小的“身份证明”图像（ID补丁），并生成一个数字特征（ID嵌入），用以描述他们的面部细节。接着，这些信息会被放置在一张基础图像上，通过一个控制系统确保每个人都在正确的位置上。训练这个系统时，它会先学习如何生成这些“身份证明”，然后再学习如何让这些身份证明与人脸特征相结合，从而提升生成的照片的真实感。最终，这种方法不仅快速高效，还能在复杂的场景中保持每个人的独特性。

RestorerID: Towards Tuning-Free Face Restoration with ID Preservation

2024-11-21｜ZJU｜⭐️🟡

http://arxiv.org/abs/2411.14125v1
https://github.com/YingJiacheng/RestorerID

概述

本研究提出了一种名为RestorerID的无需调优面部修复方法，旨在在图像修复过程中保持身份信息的完整性。现有的参考引导面部修复方法通常依赖于面部对齐或个性化参考图像，往往耗时且不够准确。RestorerID采用扩散模型，通过单一参考图像恢复低质量图像，特别是在重度退化情况下表现出色。该方法结合了身份注入和基础盲面部修复模型，设计了面部ID重平衡适配器（FIR-Adapter），有效解决了低质量输入与参考图像之间的信息冲突，从而提高了修复图像的质量和身份信息的保留。

方法

RestorerID的核心架构包括多个关键组件：稳定扩散（SD）UNet、低质量（LQ）空间模型、ID模型、FIR-Adapter以及自适应ID-规模调整模块。具体方法分为以下几个步骤：

低质量空间模型：提取多尺度结构特征，为基础修复提供支持。
ID模型：捕获参考图像的身份特征，并通过解耦的交叉注意力机制集成到UNet中。
FIR-Adapter：通过交叉注意力模块增强LQ结构特征与参考ID嵌入之间的交互，平衡结构信息和身份信息。
自适应ID-规模调整：根据退化水平动态调整ID注入程度，以实现最佳修复效果。

在训练过程中，采用了两阶段训练策略，首先训练基础模型，然后训练FIR-Adapter，以确保在图像修复过程中能够有效平衡身份信息和图像质量。

实验

实验部分通过在Celeb-Ref和真实世界数据集上对RestorerID进行评估，验证其在不同退化水平下的性能。定量结果显示，RestorerID在轻度和重度退化情况下均优于现有的面部修复方法，尤其在身份保留指标上表现突出。此外，用户研究表明，参与者对RestorerID生成的图像质量和身份保留度给予了较高的评价。通过对比不同组件的影响，结果显示FIR-Adapter和自适应ID-规模调整策略显著提升了修复效果，证明了本方法的有效性和实用性。

通俗易懂

RestorerID的工作原理可以简单理解为一个智能的“照片修复师”。首先，它会从一张清晰的照片中提取出关于人脸的特征，比如眼睛、鼻子和嘴巴的形状。然后，它会把这些特征和一张模糊或损坏的照片结合起来，试图将模糊的部分变得清晰。为了确保修复后的脸看起来仍然是同一个人，RestorerID会根据照片的模糊程度来调整修复的方式。比如，如果照片非常模糊，它会更关注保留身份特征，而如果照片稍微清晰一点，它就可以更自由地进行修复。这样，RestorerID不仅能让模糊的照片变得清晰，还能确保修复后的人脸看起来像原来的样子。

Topic: Image Generation｜ComfyUI Workflows

ComfyGI: Automatic Improvement of Image Generation Workflows

2024-11-21｜Johannes Gutenberg University｜⭐️⭐️

http://arxiv.org/abs/2411.14193v1
https://github.com/domsob/comfygi

概述

ComfyGI是一种新颖的方法，旨在自动化图像生成工作流程的优化，减少人工干预的需求。该方法借鉴了遗传改进技术，通过对图像生成过程中的设置进行自动调整，以提高生成图像的质量。ComfyGI的核心在于其模块化设计，允许用户便捷地链接不同的模型和模块，形成灵活的设计工作流。研究表明，使用ComfyGI优化后的图像生成工作流程，其生成的图像在与给定描述的对齐性和美学感知方面，比初始工作流程提升了约50%。该方法不仅适合初学者，也为高级用户提供了强大的工具，推动了图像生成领域的研究与实践。

方法

ComfyGI采用了一种简单的爬山算法来优化图像生成工作流程。具体步骤如下：

初始生成: 使用初始配置生成一幅图像，并通过ImageReward模型对其进行评分。
应用突变: 在工作流程的JSON表示中应用小的突变，突变包括：

检查点突变: 随机替换工作流程中使用的模型。
采样器突变: 随机更改采样器的相关设置，如步骤数和噪声水平。
提示词突变: 通过随机删除、交换或复制词汇来修改提示文本。
提示语句突变: 允许添加或替换提示中的较大部分，整合常见表达。
提示LLM突变: 请求大型语言模型（LLM）优化当前的提示文本。

图像生成与评估: 生成更新后的图像并评估其得分。如果新图像的得分高于之前记录的最佳得分，则将导致该改进的突变加入到工作流程中。
迭代过程: 重复以上步骤，直到没有进一步的改进为止。

实验

在实验中，ComfyGI的性能通过对42个来自不同类别的提示进行评估来验证。每个提示进行了10次独立运行，以确保结果的可靠性。在每次运行中，随机选择不同的检查点模型和种子值。结果显示，优化后的图像在ImageReward评分上平均提高了约50%。此外，进行了人类评估，100名参与者在比较初始图像和优化图像时，约90%的情况下选择了优化后的图像为更优选项。实验结果表明，ComfyGI在提升图像生成质量方面表现出色，且优化过程大多在3代生成内收敛，显示出其高效性。

通俗易懂

ComfyGI的工作原理可以想象成一个不断改进的过程。首先，它生成一幅图像，然后给这幅图像打分。接着，ComfyGI会尝试对生成过程中的一些设置进行小的调整，比如更换使用的模型、修改生成图像的参数，或者甚至改变生成图像的描述。这些调整就像是在尝试不同的配方，看看哪个配方能做出最好吃的菜。每次调整后，ComfyGI都会生成新的图像并再次打分。如果新图像的分数比之前的高，ComfyGI就会记住这个调整，并继续进行下一轮的改进。通过这种方式，ComfyGI能在没有人类干预的情况下，自动生成越来越好的图像。

Topic: Image Generation｜Safety

Safety Without Semantic Disruptions: Editing-free Safe Image Generation via Context-preserving Dual Latent Reconstruction

2024-11-21｜UWA, U Melbourne, ANU, Google｜⭐️

http://arxiv.org/abs/2411.13982v1

概述

本研究提出了一种新的安全图像生成方法，旨在解决当前多模态生成模型在处理大型未筛选数据集时可能产生的有害、不安全和文化不当的输出问题。传统的模型编辑技术试图通过移除或过滤嵌入和潜在空间中的不良概念来提高安全性，但这些方法可能会破坏学习到的流形，导致语义失调。为了解决这一问题，本文提出了一种模块化的动态解决方案，利用安全上下文嵌入和双重重建过程，通过可调加权求和在潜在空间中生成更安全的图像。该方法有效地保持了全局上下文，确保了学习流形的结构完整性，并在安全图像生成基准测试中达到了最先进的结果。

方法

我们的方法主要包括以下几个关键步骤：

文本引导图像生成：使用条件生成模型，用户通过文本提示生成图像。文本编码器将输入提示映射到嵌入空间，并通过扩散模型引导潜在重建过程。
安全内容检测：在生成过程中，我们集成了两种模块化的检测器。第一种是最近邻分类器，用于在嵌入空间中分类不当输入；第二种是集成的语言模型（LLM），基于安全协议标签识别有害内容。
双重潜在重建：我们引入双重重建过程，通过加权求和在潜在空间中生成图像。这一过程允许我们在保持全局上下文的同时，有效移除不安全内容。
语义失调评估：我们量化了模型编辑对学习流形的影响，评估了移除不良概念对周围概念的影响，确保我们的生成过程不会导致语义失调。

实验

在实验部分，我们评估了现有安全图像生成方法的效果，并与我们的编辑自由方法进行了比较。我们使用了两个基准数据集：不当输入提示（I2P）数据集和视觉安全-不安全（ViSU）数据集。通过量化语义失调程度，我们发现传统的模型编辑方法会导致相邻概念的语义失调，而我们的双重潜在重建方法则有效地避免了这种问题。实验结果表明，我们的方法在不损害学习流形的情况下，能够实现高效的安全内容生成，且在分类准确率和生成图像的安全性方面均表现优异。

通俗易懂

在我们的方法中，首先，我们让用户通过输入文本来生成图像。这个文本会被转换成一种“代码”，然后通过一种叫做扩散模型的技术来生成图像。在生成图像的过程中，我们会使用两个工具来检查内容是否安全。第一个工具是一个快速的分类器，它能判断输入的文本是否合适；第二个工具是一个更复杂的语言模型，它能根据一系列安全标准来评估内容。接下来，我们使用一种叫做双重重建的技术，这意味着我们在生成图像时，会同时考虑到原始图像的上下文和安全要求，这样可以在不损坏图像整体效果的情况下，确保生成的图像是安全的。通过这种方式，我们可以有效地避免生成出有害或不当的图像，同时保持生成内容的质量。

On the Fairness, Diversity and Reliability of Text-to-Image Generative Models

2024-11-21｜UWA, U Melbourne, ANU, Google｜⭐️

http://arxiv.org/abs/2411.13981v1

概述

随着多模态生成模型的广泛应用，关于其公平性、可靠性和潜在滥用的讨论逐渐增多。文本到图像生成模型（T2I）能够生成高保真、用户引导的图像，但它们也表现出不可预测的行为和脆弱性，可能被利用来操纵类或概念的表示。为了解决这些问题，本文提出了一种评估框架，旨在通过对模型响应的全局和局部“语义”扰动进行评估，来量化模型的可靠性。这种方法不仅能够识别触发不可靠行为的输入，还能深入了解生成多样性和公平性两个关键方面，从而为检测不可靠和注入偏见的模型奠定基础。

方法

我们的方法主要包括以下几个步骤：

语义扰动的应用：通过对编码提示（嵌入向量）施加全局和局部的语义扰动，来量化模型的可靠性。全局扰动影响整个输入，而局部扰动则专注于特定的编码标记。
可靠性度量：我们定义了全局可靠性（R_G）和局部可靠性（R_L），通过测量模型对扰动的敏感性来评估模型的可靠性。显著的输出变化表明模型可能不可靠。
生成公平性和多样性评估：通过分析输入提示中去除某些概念对生成图像的影响，来评估生成公平性（F_x˜T）。同时，通过生成多样性（D_x˜T）来量化学习概念的视觉表示的广度。
偏见检测与触发器检索：我们的方法还能够有效检测文本到图像模型的偏见，并识别出导致不可靠行为的触发器。

实验

实验部分采用了灰盒设置，要求访问内部模型输出（文本嵌入），而不需要模型权重或训练信息。我们使用了五个不同的模型，其中包括三个故意注入偏见的模型。实验结果表明，故意偏见的模型对语义扰动表现出更高的敏感性，导致更显著的图像相似性变化。通过全局和局部可靠性评估，我们能够有效地表征模型的偏见行为。此外，我们还进行了多样性和公平性评估，以进一步分析文本到图像模型的潜在不可靠性。这些实验不仅验证了我们方法的有效性，也提供了对偏见注入模型的深入见解。

通俗易懂

在我们的研究中，我们采用了一种新的方法来检查文本到图像生成模型的可靠性。想象一下，当你给模型输入一个描述，比如“一个人在喝咖啡”，我们会对这个描述进行一些小的修改（比如改变几个字），看看模型的输出图像是否会有很大的变化。如果模型的输出变化很大，那么我们就认为这个模型可能不太可靠。我们不仅检查了整体的影响，还关注了每个字对生成图像的具体影响。例如，如果去掉“喝”这个字，看看生成的图像是否依然合理。通过这种方式，我们可以评估模型的公平性和多样性，确保它在生成图像时不会偏向某些特定的概念或表现出不公平的行为。最终，我们的方法可以帮助我们识别出那些可能被故意操控的模型，从而提高生成模型的安全性和可靠性。

【声明】内容源于网络

AIGC Research

AI for Creativity (AI4C Team)｜创意人工智能研究小组｜面向影视级动画与音乐创作 #Passion!!

内容 1050

粉丝 0

AIGC Research AI for Creativity (AI4C Team)｜创意人工智能研究小组｜面向影视级动画与音乐创作 #Passion!!

总阅读368

粉丝0

内容1.1k