
今天想跟大家聊一篇刚出的来自苏黎世联邦理工大学(ETH Zurich)将在 NeurIPS 2025 Workshop 上发表的论文,标题是《The Impact of Scaling Training Data on Adversarial Robustness》。
这篇论文探讨了一个我们习以为常却又至关重要的问题:在提升模型对抗攻击的鲁棒性方面,训练数据的规模到底扮演了什么角色?我们总觉得“大力出奇迹”,数据越多,模型就越强。但事实真的如此吗?这篇研究通过对36个SOTA模型的系统性评估,给出了一个有点反直觉的答案。
先来看看论文的基本信息:
-
论文标题: The Impact of Scaling Training Data on Adversarial Robustness -
作者: Marco Zimmerli, Andreas Plesner, Till Aczel, Roger Wattenhofer -
机构: 苏黎世联邦理工大学 (ETH Zürich) -
论文地址: https://arxiv.org/abs/2509.25927 -
会议: Accepted at the workshop Reliable ML from Unreliable Data at NeurIPS 2025
研究背景:对抗鲁棒性为何如此重要?
相信大家对“对抗样本”这个概念不陌生。简单来说,就是在原始图片上做一些人眼难以察觉的微小改动,就能让一个训练有素的深度学习模型“指鹿为马”。这个问题不仅关乎AI的可靠性,更直接影响到它在自动驾驶、医疗诊断等关键领域的安全应用。
为了抵御这些攻击,研究者们提出了各种防御方法,从改进模型架构到设计新的训练范式。而其中,扩大训练数据规模一直被认为是一条简单有效的路径。但这篇论文决定深入探究一下:数据规模的提升,带来的鲁棒性增益到底有多大?数据本身的质量又在其中扮演了什么角色?
实验设计:如何全面“拷问”模型?
为了得到可靠的结论,研究者们设计了一套相当全面的评估流程。
他们选取了 36个 当前最先进的视觉模型,这些模型覆盖了各种主流的训练方法,包括有监督学习(Supervised)、自监督学习(Self-supervised)和对比学习(Contrastive Learning)。更关键的是,这些模型的训练数据规模跨度极大,从 120万到220亿 张图片不等。
攻击手段也很多样,研究者们设置了六大类黑盒攻击(Black-box Attack),模拟真实世界中攻击者信息有限的场景:
-
随机扰动:加入随机噪声。 -
几何遮罩V1/V2:在图像上叠加不同形状和颜色的几何图案。 -
COCO对象操纵:将COCO数据集中的物体粘贴到图像上。 -
ImageNet-C损坏:模拟常见的图像损坏,如模糊、噪声。 -
ImageNet-R风格迁移:将图像变成卡通、绘画等不同艺术风格。
下图直观展示了这种攻击流程,一张正常的“红狐”图片在经过几何遮罩攻击后,就被模型错误地识别了。
为了让大家更直观地感受这些攻击的效果,论文中也给出了各种攻击类型的样本示例。
核心发现:规模不是万能药,质量才是关键
经过对海量实验数据的分析,研究者们得出了一些非常有趣的结论。
规模的对数定律
首先,研究证实了规模效应的存在,但并非线性关系。模型的鲁棒性与训练数据量、模型参数量之间,大致遵循一个 对数缩放定律(Logarithmic Scaling Law) 。
具体来说:
-
训练数据量每增加十倍,攻击成功率(Attack Success Rate, ASR)平均下降约 3.2% 。 -
模型参数量每增加十倍,攻击成功率平均下降约 13.4% 。
下面这两张图清晰地展示了攻击成功率(ASR)随着数据量和模型参数量增加而下降的趋势。ASR越低,代表模型鲁棒性越强。
攻击成功率与训练数据规模的关系
攻击成功率与模型参数量的关系
可以看到,增加模型大小带来的鲁棒性提升,要比单纯增加数据量更显著。但两者都显示出收益递减的效应,也就是说,当规模达到一定程度后,再想通过堆砌数据或参数来提升鲁棒性,会变得越来越困难。
数据质量 > 数据规模
这可以说是本次研究中最亮眼的发现。研究者们注意到,一些在精心筛选过的数据集上训练的自监督模型,其鲁棒性表现竟然超过了那些在规模大得多的、但未经筛选的网络爬取数据集上训练的模型。
一个典型的例子就是 DINOv2 。它在某些攻击场景下的表现,比一些训练数据量是其数倍甚至十倍的模型还要好。
这个发现有力地挑战了“规模决定一切”的普遍认知。CV君认为,这提醒我们,在追求更大规模数据集的同时,或许更应该关注数据的质量、多样性和相关性。盲目地用海量但“脏”的数据进行训练,可能并不能带来预期的鲁棒性提升,甚至会引入新的偏差。
对抗微调的得与失
研究还探索了对抗微调(Adversarial Fine-tuning)的效果。他们用带有几何遮罩的样本对ResNet50进行微调,发现这种方法确实能让模型更好地泛化到其他具有相似结构变化的攻击(比如不同类型的遮罩),但对于颜色分布变化的攻击(如ImageNet-C/R),鲁棒性却没什么改善。
这说明对抗训练获得的鲁棒性可能存在“偏科”现象,其泛化能力是有限的。
人与机器的感知鸿沟
最后,研究还引入了人类评估作为基准。结果毫不意外,在面对这些经过混淆的图像时,人类的识别准确率远高于所有模型。
在几何遮罩攻击下,不同模型与人类准确率的对比
上图显示,随着遮罩的不透明度增加,所有模型的准确率都急剧下降,而人类的表现则稳定得多。这再次证明,当前的深度学习模型在视觉感知上与人类依然存在巨大鸿GAP。
总而言之,这篇论文通过翔实严谨的实验,揭示了提升模型对抗鲁棒性的复杂性。虽然扩大规模确实有帮助,但它远非万能妙方。想要打造真正强大的AI,我们需要将目光从单纯的“规模竞赛”中移开,更多地关注 数据质量、模型架构和训练目标 这三驾马车。
大家对这个方法怎么看?欢迎在评论区留下你的看法!

