大数跨境
0
0

Noisy Student Training:嘈杂学生训练——基于噪声的学生/教师模型半监督学习方法

Noisy Student Training:嘈杂学生训练——基于噪声的学生/教师模型半监督学习方法 USTC大规模智算实验室
2025-08-03
0
导读:Noisy Student Training:嘈杂学生训练——基于噪声的学生/教师模型半监督学习方法
方法
     深度学习在图像识别领域取得了显著的成功,但最先进的视觉模型仍需通过监督学习进行训练,需求大量标记的图像作为训练集。本工作使用更大的未标记的图像训练集进行训练以提升性能。它主要有三个步骤:1)在标记图像上训练教师模型,2)使用教师模型在未标记的图像上生成伪标签,3)在标记图像和伪标记图像的组合训练集上训练学生模型。该工作将学生视为教师来重新生成伪标签并训练学生,从而达成迭代。
图1.嘈杂学生训练框架概览
    嘈杂学生训练对于自训练和蒸馏的提升主要有两种方式:一是学生模型的规模大于等于教师模型,学生可以更好地从更大的数据集中学习;二是学生模型的训练过程中增加了噪声,迫使学生模型学习到伪标签中更本质的特征。
    本工作使用了两种类型的噪声:输入噪声和模型噪声。输入噪声使用RandAugment进行数据增强,模型噪声使用dropout和Stochastic Depth(随机深度)。
RandAugment:一种数据增强方式,对图片进行各种变换(对比度调整、选择、色彩、亮度等)。
dropout:关闭部分神经元(输出为0),降低网络对单个神经元的依赖性。

Stochastic Depth:对于深残差网络,随机跳过部分残差块。

    与基于一致性训练和伪标签方法的对比:这些方法没有使用在标记数据上训练的教师模型来生成伪标签,而是使用正在训练的模型来生成伪标签。在训练的早期阶段,被训练的模型精度低,熵高,因此一致性训练会使模型正则化为高熵预测,从而阻止其获得良好的准确率。

实验

图2.ImageNet上嘈杂学生训练方法的准确率以及与先前方法的对比

    嘈杂学生训练的EfficientNet-L2达到了88.4%的top-1准确率,明显优于先前EfficientNet上报告的最佳准确率85.0%。其中0.5%的提升来自于扩大模型,2.9%的提升来自于嘈杂学生训练。嘈杂学生训练也优于FixRes ResNeXt-101 WSL的86.4%准确率,而这项工作需要3.5B有标签图像,相比之下嘈杂学生训练只需要300M未标记的图像。

    在三个困难样本上的实验也证明了该方法的健壮性。

图3.ImageNet-Adversarial 自然对抗样本

图4.ImageNet-Corruption 常见算法性损坏样本

图5.ImageNet-Perturbation 常见连续性扰动样本

消融实验结论

  • 移除噪声导致模型性能下降

  • 迭代训练使得准确率上升

  • 更大更强的教师模型会使学生模型也增强

  • 学生模型性能需要大量无标签数据

  • 对于域外数据,软伪标签效果好于硬伪标签

  • 学生模型需要足够大

  • 小模型需要数据平衡

  • 将有标签和伪标签数据联合训练,效果好于在伪标签预训练,再用标签微调

  • 无标签数据的batch size要大于有标签批次

  • 重新训练优于用教师模型初始化

文献来源

Xie, Qizhe, et al. "Self-training with noisy student improves imagenet classification." Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2020.

【声明】内容源于网络
0
0
USTC大规模智算实验室
大规模计算智能(LIC)实验室由包括中科大在内的多所高校教授联合共建,主要研究方向有系统网络、联邦学习和大模型AI。实验室以智算网络系统平台为硬件支撑,以多名硕博组成的高素质团队为人才基础,参与过多项重点项目,发表过多篇高水平论文。
内容 14
粉丝 0
USTC大规模智算实验室 大规模计算智能(LIC)实验室由包括中科大在内的多所高校教授联合共建,主要研究方向有系统网络、联邦学习和大模型AI。实验室以智算网络系统平台为硬件支撑,以多名硕博组成的高素质团队为人才基础,参与过多项重点项目,发表过多篇高水平论文。
总阅读25
粉丝0
内容14