极市导读
中科院团队提出AntiPure,把扰动藏进高频细节和错误时间步,让“净化”去不掉,DreamBooth/LoRA定制后生成扭曲人脸,FID飙升、身份相似度骤降,以最小视觉变化实现最强破坏,为AIGC攻防战升级“抗洗护甲”。>>加入极市CV技术交流群,走在计算机视觉的最前沿
在AIGC时代,Stable Diffusion等扩散模型因其强大的定制(Customization)能力,让“数字分身”和“风格迁移”变得轻而易举。然而,这也带来了严峻的安全风险:你的照片可能被他人用于训练模型,从而生成深度伪造(Deepfake)内容,或你的艺术作品风格可能被轻易窃取。为了应对这一挑战,一种名为“保护性扰动”(Protective Perturbation)的技术应运而生。
然而,这场攻防战并未就此结束。近期,研究者发现,可以通过“净化”(Purification)技术——即利用扩散模型自身的去噪能力——来清洗掉这些保护性扰动,使得保护失效。这就像给图片穿上“隐形护甲”,却被对手用“净化神水”洗掉了。
面对这一“道高一尺,魔高一丈”的局面,一篇来自中国科学院并被 ICCV 2025 接收的论文 《Towards Robust Defense against Customization via Protective Perturbation Resistant to Diffusion-based Purification》,提出了一个名为 AntiPure 的新型保护性扰动方法,旨在打造一件“抗净化”的隐形护甲。
-
论文标题:Towards Robust Defense against Customization via Protective Perturbation Resistant to Diffusion-based Purification -
作者团队:Wenkui Yang, Jie Cao, Junxian Duan, Ran He -
机构:中国科学院, 中国科学院大学 -
论文地址:https://arxiv.org/abs/2509.13922 -
会议:Accepted to ICCV 2025
背景:“净化-定制”攻防战
要理解 AntiPure 的价值,首先需要了解当前的攻防流程,作者将其形式化为“净化-定制”(Purification-Customization, P-C)工作流:
-
防御方:在一张原始图片上添加微不可见的“保护性扰动”,得到一张“有毒”的图片。直接用这张图片去微调(定制)扩散模型,会导致模型学到错误的概念,最终生成扭曲、失真的图像,从而达到保护目的。 -
攻击方:拿到“有毒”图片后,并不直接用于微调。而是先走一步“净化”流程,利用一个预训练的扩散模型(如DDPM)对图片进行去噪处理,去除保护性扰动,得到一张“干净”的图片。 -
攻击成功:攻击方使用净化后的干净图片进行模型定制,此时保护已经失效,模型可以被成功“毒害”,用于生成高质量的伪造内容。
现有的大多数保护方法没有考虑到“净化”这一环节,因此在P-C工作流面前显得非常脆弱。而 AntiPure 的目标,就是让保护性扰动在“净化”过程中也能存活下来,甚至反过来利用净化过程来增强破坏效果。
01 AntiPure:如何对抗“净化”?
AntiPure 的核心思想是:不与净化过程硬碰硬,而是去攻击净化过程本身的“弱点”。作者发现,基于扩散的净化过程存在两大脆弱性,AntiPure 正是利用这两点来设计扰动。
1.1 分块频率引导 (Patch-wise Frequency Guidance)
-
洞察:净化模型(如DDPM)在恢复图像的低频结构(如人脸轮廓)时非常稳健,但在处理高频细节(如纹理、噪声)时控制力较弱。 -
策略:AntiPure 将攻击焦点从整个图像的语义结构,转移到图像块(Patch)的高频分量上。通过在频域上引导,它生成的扰动主要影响高频信息。这样一来,即使经过净化,这些高频噪声也难以被完全清除,反而可能被不当处理,导致净化后的图像出现网格状伪影,最终在定制模型时引入严重失真。 -
优势:由于人眼对高频噪声不敏感,这种扰动在视觉上几乎不可见,保证了保护的隐蔽性。
1.2 错误时间步引导 (Erroneous Timestep Guidance)
-
洞察:扩散模型的去噪是一个分步过程,从高时间步(噪声多,结构少)到低时间步(噪声少,细节多)。净化过程本质上是利用了其中一段固定的去噪流程。 -
策略:AntiPure 通过引入一个错误的时间步(Timestep)来“迷惑”净化模型。它在优化扰动时,会最小化模型在“正确时间步”和“错误时间步”的预测噪声之间的差异。这使得净化模型在去噪时“决策混乱”,不知道该执行哪一步操作,从而破坏了其原本的去噪策略,使得扰动得以保留。
通过这两种引导机制的结合,AntiPure 生成的保护性扰动变得异常顽固,能够在净化过程中幸存,并最终在定制化后的模型输出中造成最大程度的失真。
02 实验结果:隐蔽而强大的保护效果
研究者将 AntiPure 与AdvDM, Mist, Anti-DB, SimAC等四种先进的保护方法,在“净化-定制”工作流下进行了全面对比。
2.1 定量分析
实验结果表明,在经过相同的净化流程后,使用 AntiPure 保护的图像来定制模型(无论是DreamBooth还是LoRA),生成的图像质量最差(FID/BRISQUE指标最高),同时面部识别相似度最低(ISM指标最低)。这说明 AntiPure 的保护效果最好,对模型定制的破坏性最强。
同时,在感知相似度(LPIPS)上,AntiPure 的扰动与原始图像的差异最小,这意味着它的隐蔽性是最好的。
2.2 定性分析
视觉效果的对比更加直观。如下图所示,经过“净化-定制”流程后,使用其他方法保护的图像所生成的定制化结果(上四列)虽然有一定程度的失真,但人脸的身份信息依然清晰可辨,意味着保护基本失败。而使用 AntiPure 保护的图像,其定制化结果(最右一列)则出现了严重的扭曲和伪影,面目全非,成功地阻止了恶意利用。
03 总结与贡献
在数字内容和个人隐私保护日益重要的今天,AntiPure 的提出具有重要意义。它不仅揭示了现有防御手段在“净化”攻击面前的脆弱性,还为构建更鲁棒的保护系统提供了新的思路。本文的主要贡献在于:
-
形式化了“反净化”任务:首次明确定义了抵抗净化攻击的保护性扰动问题,并分析了其核心挑战。 -
提出了AntiPure方法:设计了一种新颖的诊断性扰动方法,通过攻击净化过程的频率和时间步两个弱点,实现了对净化的有效抵抗。 -
树立了新的性能标杆:实验证明,AntiPure 在“净化-定制”工作流中,以最小的感知代价实现了最强的破坏效果,优于现有方法,可作为未来净化技术的一个“压力测试器”。
这项工作是AIGC安全领域攻防对抗的又一个精彩回合,为保护个人数据和知识产权不被生成模型滥用,提供了一面更坚固的“盾牌”。

公众号后台回复“数据集”获取100+深度学习各方向资源整理
极市干货

点击阅读原文进入CV社区
收获更多技术干货

