

Stable Diffusion微调技术之Textual Inversion

AI算法之道

2024-02-28

导读：虽然 Textual Inversion 学习一个特定概念的能力比较强了，但还是很难完全精确地学到所有的细节。不过对于艺术创作来说，这足够了。未来，我们希望可以有更好更精确的概念重构，使用户能够利用我

引言

最近的大型文本到图像的稳定扩散模型展现了利用文本提示来合成新场景的前所未有的能力。然而现有的图像生成模型虽然可以根据用户提供的文本来生成不同图像，但是只靠对文本的描述出发还是会受到限制，没办法完整把现实生活中的概念通过文本传达给生成式模型。

若直接把新的概念引入现有大规模模型中是很困难的（retrain耗时、很贵）; 但做finetune可能会让模型忘记prior knowledge，大多数人采用的方式都是冻结大模型后增加更多层网络结构来完成下游任务的适配 (但还是可能会忘记原先学到的knowledge）

闲话少说，我们直接开始吧！

什么是Textual Inversion？

论文利用文本反演技术（Textual Inversion）为文本到图像的个性化生成提供了一种简单的方法，可以让大家自由发挥创造性。

https://arxiv.org/pdf/2208.01618.pdf

该技术是一种从少量示例图像中捕获新概念的技术。虽然该技术最初是用潜在扩散模型演示的，但后来它被应用于Stable Diffusion中。学习到的概念可用于更好地指导生成式模型生成图像。它在文本编码器的嵌入空间中学习新的pseudo word，这些单词用于文本提示以生成个性化图像。

论文中的核心贡献归纳如下：

本文提出个性化text-to-image生成，基于用户给定的几张图片（new concept）转换成pseudo word来基于新风格生成图像
提出 Textual Inversion，把图片的概念转换成pseudo-words（text encoder的embedding）
通过image encoder转换成token，转换过后的vector被视为图像的feature vector，并当作pseudo word，输入给生成模型来基于新风格产生图像

工作原理

论文中涉及的文本反演的架构设计如下：

在上图中，我们指定了一个占位符字符串 S∗ 来表示我们希望学习的新概念，也被称之为pseudo word。我们在嵌入过程中进行干预，学习新概念的特征嵌入 v∗ 。这样，我们就能将新概念注入到我们的词汇中。然后，这个pseudo word就会像其他词一样被正常处理，并可用于为生成模型编写新的句子。因此，我们可以询问 "一张 S∗ 在海滩上的照片"、"一幅挂在墙上的 S∗ 的油画"，甚至可以组成两个概念，如 "一幅 S1 ∗ 按照 S2 ∗ 的风格画的画"。

由于上述过程我们只是在SD的子模块text_encoder中的token embedding部分通过训练增加了pseudo word的嵌入向量，其他模块均保持不变，所以训练速度超快，效果也很明显。

效果展示

Textual Inversion具有非常多的应用，以下就其典型应用进行阐述。

Image Variation

上图所示，文本反演可用于使用单个pseudo word来创建对象的变体。它能够使用单个词的嵌入来捕捉对象更加精细的细节。

Text guided synthesis

文本反演可以通过将学习到的pseudo word与新的条件文本相结合来创建新颖的场景。我们可以从上图中生成的图像看到，利用的pseudo word和新条件文本中的语义概念可以创建新的场景。由于SD中的UNet是使用预先训练好的大规模文本到图像模型建立的，因此一个通过学文本反演学习好的嵌入可以在不同扩散模型中重复使用。