
01
引言
最近的大型文本到图像的稳定扩散模型展现了利用文本提示来合成新场景的前所未有的能力。然而现有的图像生成模型虽然可以根据用户提供的文本来生成不同图像,但是只靠对文本的描述出发还是会受到限制,没办法完整把现实生活中的概念通过文本传达给生成式模型。
若直接把新的概念引入现有大规模模型中是很困难的(retrain耗时、很贵); 但做finetune可能会让模型忘记prior knowledge,大多数人采用的方式都是冻结大模型后增加更多层网络结构来完成下游任务的适配 (但还是可能会忘记原先学到的knowledge)
闲话少说,我们直接开始吧!
02
什么是Textual Inversion?
论文利用文本反演技术(Textual Inversion)为文本到图像的个性化生成提供了一种简单的方法,可以让大家自由发挥创造性。
https://arxiv.org/pdf/2208.01618.pdf
该技术是一种从少量示例图像中捕获新概念的技术。虽然该技术最初是用潜在扩散模型演示的,但后来它被应用于Stable Diffusion中。学习到的概念可用于更好地指导生成式模型生成图像。它在文本编码器的嵌入空间中学习新的pseudo word,这些单词用于文本提示以生成个性化图像。

论文中的核心贡献归纳如下:
本文提出个性化text-to-image生成,基于用户给定的几张图片 (new concept) 转换成pseudo word来基于新风格生成图像
提出 Textual Inversion,把图片的概念转换成pseudo-words(text encoder的embedding)
通过image encoder转换成token,转换过后的vector被视为图像的feature vector,并当作pseudo word,输入给生成模型来基于新风格产生图像
03
工作原理
论文中涉及的文本反演的架构设计如下:

在上图中,我们指定了一个占位符字符串 S∗ 来表示我们希望学习的新概念,也被称之为pseudo word。我们在嵌入过程中进行干预,学习新概念的特征嵌入 v∗ 。这样,我们就能将新概念注入到我们的词汇中。然后,这个pseudo word就会像其他词一样被正常处理,并可用于为生成模型编写新的句子。因此,我们可以询问 "一张 S∗ 在海滩上的照片"、"一幅挂在墙上的 S∗ 的油画",甚至可以组成两个概念,如 "一幅 S1 ∗ 按照 S2 ∗ 的风格画的画"。
04
效果展示
Textual Inversion具有非常多的应用,以下就其典型应用进行阐述。
-
Image Variation
Text guided synthesis
文本反演可以通过将学习到的pseudo word与新的条件文本相结合来创建新颖的场景。我们可以从上图 中生成的图像看到,利用的pseudo word和新条件文本中的语义概念可以创建新的场景。由于SD中的UNet是使用预先训练好的大规模文本到图像模型建立的,因此一个通过学文本反演学习好的嵌入可以在不同扩散模型中重复使用。
Style Transfer

这应该是文本反演最典型的使用案例了,用户可以在其中绘制特定艺术家的独特风格,并将其应用到新的创作中。文本反演模型也能得到表示特定未知风格的pseudo word。我们可以为该模型提供一小组具有共同风格的图片,并用 "A painting in the style S* "来替换训练文本。
05
结束语
点击上方小卡片关注我
新年寄语:
所求皆如愿,
所行皆坦途。
多喜乐,长安宁。

