极市导读
本文探讨了文本生成图像(文生图)扩散模型的隐私风险,提出了一种基于条件似然差异(CLiD)的新型成员推理方法,以更有效地检测数据是否被用于模型训练。通过实验验证,该方法在真实场景中表现优于现有方法,并为AI模型的隐私保护和数据授权检测提供了新的技术手段。 >>加入极市CV技术交流群,走在计算机视觉的最前沿
题目:Membership Inference on Text-to-Image Diffusion Models via Conditional Likelihood Discrepancy
发表会议:NeurIPS 2024
本文是NeurIPS 2024入选论文《Membership Inference on Text-to-Image Diffusion Models via Conditional Likelihood Discrepancy》的中文解读。本文的第一作者翟胜方为北京大学博士生,研究方向为Generative Model Security & Privacy。本文的其他合作者分别来自北京大学、清华大学、西澳大学与南洋理工大学等。
1. Introduction (为什么研究文生图模型的成员推理?)
文生图扩散模型(Text-to-image Diffusion Models)在海量图文数据(Image-text Data)中进行训练,在可控图像生成领域取得巨大成功,而与之伴随的则是更加严重的隐私泄露与数据版权问题 [1,2,3,4]。成员推理(Membership Inference)定义为判断一个给定数据点是否已用于训练该目标模型。成员推理被广泛用于评估模型的隐私泄露,并可以用于检测未经授权数据使用。基于这一背景,本文针对文生图扩散模型上的成员推理任务,并重点考虑以下两个问题:(1)现有的成员推理方法是否在文生图扩散模型真实有效?(2)能否针对文生图扩散模型的训练/微调特性,设计针对性的高效成员推理方法?
主要贡献
① 本文考虑了全面且现实的文生图模型成员推理实验设定,通过参考官方代码的训练步数防止过度训练并严格消除分布偏移,评估了当前面向文生图模型的成员推理在真实场景下的效果,揭示了现有工作的成功幻觉(Hallucination Success)。
② 本文首次发现并广泛验证了文生图扩散模型训练的条件过拟合(Conditional Overfitting)现象,有助于进一步理解条件扩散模型的训练过程。
③ 基于上述现象,本文解析地推导出用于评估模型对图文样本记忆的指示器CLiD(Conditional Likelihood Discrepancy),并基于此设计两种具体的成员推理方法。实验评估显示,本文方法在成员推理的效果和面对数据增强等的鲁棒性方面均优于现有工作。
2. Background
2.1 成员推理任务的形式化
对于传统机器学习任务,给定数据 \mathcal{M}$表示为:
其中 表示指示器(Indicator)函数(例如最常见的:损失函数); 表示阈值参数阈值参数,用于决定成员推理的判别边界。
对于文生图模型,给定图文数据对 ,其成员推理任务 则表示为:
注:本文也考虑了只有图像数据的情况下, 针对文生图模型进行成员推理的设定(参见下文/原文4.6节)。
2.2 扩散模型 (Diffusion Models)
扩散模型的主要思想是在前向过程添加高斯噪音,使得图片逐步逼近标准正态分布,然后训练模型学习逆过程来逐步去噪。对于无条件生成的扩散模型,如DDPM[9],其损失函数通过优化对数似然的证据下界(Evidence Lower Bound,ELBO)来得到:
而对于条件生成的扩散模型,如Stable Diffusion[10],其损失函数通过优化相应的条件对数似然的ELBO来得到:
除了训练过程,在后文中,本文也通过ELBO来近似估计扩散模型的似然(Likelihood)
3. Related Works
扩散模型作为研究热点,现阶段已有部分工作探索在其上的成员推理,然而并不能良好适配文生图扩散模型:[5]提出了基于似然比(Likelihood Ratio Attack)的成员推理方法,然而该方法由于需要训练大量阴影模型(Shadow Model)导致存在高计算开销,无法扩展(Scale-up)到文生图扩散模型上;[6,7,8]提出了基于查询的成员推理,计算开销更小,可以扩展到文生图扩散模型。但是由于评估设定不合理而导致的成功幻觉,使其在更真实的文生图任务场景下达不到相对满意的效果。
4. 本文方法
针对现有挑战,本文提出了一种基于条件似然差异(Conditional Likelihood Discrepancy, CLiD)的成员推理方法。在后文中,本文首先引入文生图模型训练过程中观察到的关键现象——条件过拟合(Conditional Overfitting),这一现象为理解模型的训练行为提供了新的视角。然后在此基础上,本文推导出一种适用于文生图扩散模型的成员推理指示器。最后,基于该指示器,本文设计了两类具体的成员推理方法,有效提升了真实场景下的成员推理性能。
4.1 关键直觉—条件过拟合现象
回想无条件生成模型(例如DDPM、GAN)的训练过程,在训练过程中的过拟合现象是指:模型输出分布相比于测试集(又名保留集:hold-out set)会更加偏向训练集(member set):
在上式中, 和 分别代表成员集和保留集的分布, 代表模型输出分布,该过拟合现象本质上即为现有成员推理任务的直觉基础。
而对于文生图扩散模型(条件扩散模型)的训练过程,本文强调了条件过拟合现象的存在:文生图扩散模型在条件分布上的过拟合要更显著于在边缘分布上的过拟合。其形式化如下:
通过使用不同的分布度量指标(FID等),本文广泛验证了该现象的普适性(见原文图1、图A.1)。
4.2 条件似然差异 CLiD
使用KL散度代入上式,本文可以得到等价形式(证明见附录B):
其中:
在上式中,忽略 ,根据不等式两边,便得到一个新的能够揭示成员资格的指示器:
由于该指示器实质上是在计算给定数据点在不同条件下的似然差值,所以称其为条件似然差异(Conditional Likelihood Discrepancy,CLiD)。
接下来,本文使用ELBO来估计相关似然值:
其中 代表使用空文本作为条件以近似估计边缘分布。由于该等式右边需要对两个ELBO进行单独蒙特卡洛采样,会导致较高开销。故进一步对该式进行修改,直接对ELBO的差值进行蒙特卡洛采样以减少计算量[11]:
4.3 基于CLiD的成员推理
在实际计算中,本文额外进行如下处理:
① 对文本进行不同程度的裁剪(使用 代表 ),以进一步减小误差:
② 引入对似然的单独估计来增强效果:
注:由于对于似然的估计在前面已经计算过,所以步骤②不会增加任何计算开销。
接下来,本文提出两种成员推理方法,将①和②中得到的不同结果进行合并,分别得到一个标量值或者一个向量值,并据此来区分成员信息(具体计算细节请参考原文):
一、基于阈值的成员推理方法 :
二、基于特征向量的成员推理方法 :
其中 表示分类器的置信度(本文实验中使用XGBoost实现)。
5. 实验设置
合理的实验设置对于评估成员推理方法至关重要。相关工作[12,13]指出:不合理的评估设定可能带来成员推理的成功幻觉。基于此,本文综合考虑先前工作的实验设定和现实角度的实验设定,并考虑微调和预训练两种训练任务,以从多种角度证明本方法的有效性。
5.1 针对微调的成员推理
5.1.1 Over-training setting
本设定完全按照现有工作[6, 8]的实验设置,即使用Stable Diffusion v1-4模型在Pokemon(训练集/保留集:416/417)、MS-COCO(2500/2500)、Flickr(2500/2500)分别微调15,000步、150,000步、150,000步。
5.1.2 Real-world training setting
由于“Over-training”设置中的微调步数高于实际用户通常的微调步数。所以本文参考HuggingFace上的微调代码示例,以20的Steps/image 的比例对微调步数做了修正:即在Pokemon(训练集/保留集:416/417)、MS-COCO(2500/2500)、Flickr(10000/10000)分别微调7500步、50,000步、200,000步;此外本文引入了微调时常用的数据增强方法(Random-Crop和Random-Flip)以进一步模拟真实情况。
5.2 针对预训练的成员推理
针对预训练的成员推理直接检测数据是否被用于Stable Diffusion v1-5模型的预训练。需要注意的是,先前工作[6, 7, 8]通常使用LAION-Aesthetics v2 5+和MS-COCO分别作为训练集与保留集,这会引入分布偏移(Distribution Shift)[13],而带来成功幻觉。故本文分别使用LAION-Aesthetics v2 5+ 和 LAION-2B MultiTranslated作为训练集与保留集[13],并对数据集中的文本进一步处理以消除分布偏移(细节参见原文)。
6 实验与分析(完整实验分析见原文)
6.1 主要结果
上表为Over-training设置下的评估效果。从表中可以看到,由于过高的训练步数带来的过高过拟合,所有基线均取得较好效果,本文的方法甚至达到99%的ASR和AUC值。此外,不同Query(不同计算复杂度)的方法体现不出明显的效果差别,所以本文强调:该实验设定与真实训练(微调)场景不符,不能真实地反映各方法的效果差距。
上表为Real-world training设置下的评估效果。从表中可以看到,根据官方微调示例缩小了训练步数,并添加数据增强方法之后,本文方法相比基线的效果提升显著。
上表为预训练设置下的评估效果。
6.2 有效性轨迹(Effectiveness Trajectory)
在主实验中,可以发现,训练步数对成员推理的指标影响较大。所以本文额外观察在不同微调步数下,成员推理方法的指标变化,如下图所示:
从上图可以观察到,随着训练的进行, 的有效性轨迹显著更快上升。在 25,000 步时, 有效暴露了成员信息,而其他基线方法大约在 150,000 步时才能达到类似效果。这表明本文方法能够在文生图扩散模型的过拟合程度尚较弱时,更有效地揭示成员信息。
6.3 更弱的假设
上述实验中,本文假设成员推理的实施者可以访问完整的图文对数据点 ;此外,本文额外考虑一种更弱的假设:实施者只能访问图像 ,无法获取对应的文本 :
在这种假设下,本文首先使用Image-caption模型(在实验中使用 BLIP )为图像生成对应的伪文本(Pseudo-Text),然后基于图像-伪文本对实施 本文方法。在下表中,可以观察到本文的方法依然普遍优于基线方法。可能原因在于伪文本仍会保留图像的关键信息语义,从而使本文方法依然有效。
7 讨论与总结
7.1 现实意义
成员推理传统上被认为是一种潜在的隐私威胁攻击方法[14,15]。然而,在文本生成图像任务中,大部分训练数据来自对网络公开图文对的抓取。这些数据在使用过程中,相较于隐私侵犯,更可能引发版权争端。在此背景下,成员推理可用于评估数据是否存在未经授权使用的可能性。因此,本文旨在设计更高效的成员推理方法,以推动社区在文图数据未授权使用检测方面的研究与实践,产生更积极的影响。
7.2 局限性
由于开源文生图模型的有限性,本文中在预训练的设置下的评估尚不充分。微调设定相比于预训练设定,具有更高的训练步数/图像比,所以本文承认 CLiD-MI 在预训练设置下相较于基线方法的优势不如在微调设置中显著。本文强调,预训练设置下的实验(原文表 3)揭示了现有方法的成功幻觉,并鼓励未来研究关注这一更具挑战性和实际意义的场景。
7.3 总结
本文首次指出了文生图扩散模型中的条件过拟合现象、并提出了 CLiD-MI,一种基于条件似然差异的文生图扩散模型成员推理框架。实验表明,该方法在效果上相比基线具有显著优势,并对提前停止和数据增强具有鲁棒性。本文的方法旨在为社区在图文数据的未授权使用审计方面产生更积极影响。
引用
[1] BBC. "Art is dead Dude" - the rise of the AI artists stirs debate. 2022. URL https://www.bbc.com/news/technology-62788725.
[2] CNN. AI won an art contest, and artists are furious. 2022. URL https://www.cnn.com/2022/09/03/ tech/ai-art-fair-winner-controversy/index.html.
[3] Reuters. Lawsuits accuse AI content creators of misusing copyrighted work. 2023. URL https://www.reuters.com/legal/transactional/ lawsuits-accuse-ai-content-creators-misusing-copyrighted-work-2023-01-17/.
[4] WashingtonPost. He made a children’s book using AI. Then came the rage. 2022. URL https://www.washingtonpost.com/technology/2023/01/19/ ai-childrens-book-controversy-chatgpt-midjourney/.
[5] Nicolas Carlini et al. Extracting training data from diffusion models. In 32nd USENIX Security Symposium (USENIX Security 23)
[6] Jinhao Duan et al. Are diffusion models vulnerable to membership inference attacks? In International Conference on Machine Learning, 2023.
[7] Fei Kong et al. An efficient membership inference attack for the diffusion model by proximal initialization. In The Twelfth International Conference on Learning Representations, 2024.
[8] Wenjie Fu et al. A probabilistic fluctuation based membership inference attack for generative models. arXiv preprint arXiv:2308.12143, 2023
[9] Ho, Jonathan, Ajay Jain, and Pieter Abbeel. "Denoising diffusion probabilistic models." Advances in neural information processing systems 33 (2020): 6840-6851.
[10] Rombach, Robin, et al. "High-resolution image synthesis with latent diffusion models." Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2022.
[11] Li, Alexander C., et al. "Your diffusion model is secretly a zero-shot classifier." Proceedings of the IEEE/CVF International Conference on Computer Vision. 2023.
[12] Debeshee Das, Jie Zhang, and Florian Tramèr. Blind baselines beat membership inference attacks for foundation models. arXiv preprint arXiv:2406.16201, 2024.
[13] Dubiński, Jan, et al. "Towards more realistic membership inference attacks on large diffusion models." Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision. 2024.
[14] Reza Shokri, Marco Stronati, Congzheng Song, and Vitaly Shmatikov. Membership inference attacks against machine learning models. In 2017 IEEE symposium on security and privacy (SP), pages 3–18. IEEE, 2017.
[15] Nicholas Carlini, Steve Chien, Milad Nasr, Shuang Song, Andreas Terzis, and Florian Tramer. Membership inference attacks from first principles. In 2022 IEEE Symposium on Security and Privacy (SP), pages 1897–1914. IEEE, 2022.

公众号后台回复“数据集”获取100+深度学习各方向资源整理
极市干货

点击阅读原文进入CV社区
收获更多技术干货

