大数跨境
0
0

当小样本遇见增量学习,智能如何实现,超详细最新综述来袭!

当小样本遇见增量学习,智能如何实现,超详细最新综述来袭! 极市平台
2023-12-09
3
↑ 点击蓝字 关注极市平台
作者丨田松松、Lusi Li、李卫军、冉航、宁欣、Prayag Tiwari
编辑丨极市平台

极市导读

 

本篇文章深入探讨了小样本类增量学习(FSCIL)领域,汇编了最新的研究进展,并提出了分类新方法,涵盖了包括传统机器学习、元学习、基于特征的方法、重放方法和动态网络结构等五个子类别。 >>加入极市CV技术交流群,走在计算机视觉的最前沿

人工智能(AI)正以前所未有的速度不断地学习和进化。就像人类小孩在成长中逐渐学会识字、解问题一样,AI同样需要通过不断学习来增强自身能力。但与人脑不同,传统的AI系统通常需要海量数据才能学到新知识。当面对有限的信息时,这些系统往往显得力不从心。而小样本类增量学习(FSCIL)的出现,就如同给AI领域注入了一剂强心针。它让AI能在只有少数标注样本的情况下,迅速掌握新任务并且不遗忘旧知。

论文下载地址:
https://doi.org/10.1016/j.neunet.2023.10.039

目录:
0 引言
1 问题定义
2 小样本类增量学习方法
3 性能
4 小样本增量学习应用
5 总结与展望

摘要:
在这个信息爆炸的时代,人工智能面临着一个巨大的挑战:如何用极少量的数据快速学习新事物,同时不遗忘旧知识。这就是小样本类增量学习(FSCIL)领域正在解决的问题。试想一下,你的手机摄像头在看到只有几张图片的新物体后就能立即认出它,而不会忘记之前识别过的数以万计的物体——这就是FSCIL试图实现的能力。

本篇文章深入探讨了这一领域,汇编了最新的研究进展,并提出了分类新方法,涵盖了包括传统机器学习、元学习、基于特征的方法、重放方法和动态网络结构等五个子类别。更激动人心的是,FSCIL不只是纸上谈兵,在计算机视觉的多个领域——比如图像分类、物体检测、图像分割,乃至自然语言处理与图结构数据中都取得了实际的应用成果。最后,我们还展望了FSCIL可能的未来研究方向,涉及应用发展、实验设置以及理论推进。

0 引言

随着计算技术的快速进步和大规模数据集的普及,深度神经网络在计算机视觉的各项任务中取得了显著的成果。然而,这些成就多数基于理想化假设,并依赖海量训练数据,而在现实世界中,高质量数据往往是稀缺的。特别是当数据分批到来,且新增的类别样本很少时,现有的很多方法就显得无能为力了。

面对这样的挑战,FSCIL的目标是赋予人工智能在只有少量标注样本的情况下,逐渐学习新任务的能力,同时不忘记之前学到的知识。从首次提出这个概念到现在,许多学者已经将其扩展到视觉任务以外的许多应用场景,因为它不仅符合人类学习模式,而且适用于现实世界的应用。

FSCIL最直观的方法是在新的训练集上微调基础模型,但这会带来灾难性遗忘和过拟合的问题,即两个核心挑战:稳定性-可塑性难题和不可靠的经验风险最小化。稳定性-可塑性难题反映出稳定性和可塑性之间的矛盾,当一个模型具有高稳定性时,它在旧数据上表现良好,但在新数据上表现不佳。随着可塑性的增加,模型对新数据的泛化能力增强,同时逐渐遗忘旧数据。而不可靠的经验风险最小化策略在少量训练样本的情况下容易导致模型过拟合,这种不足是因为有限的数据可能不能完全代表整个数据生成过程的真实分布,导致模型捕获数据中的随机噪声,而不是底层的真实模式。除了上面挑战外,由于新旧类别样本数量的巨大差异,模型在训练或预测时容易偏向于更多的旧类训练样本,这种基础类和新颖类样本之间的不平衡也使得模型难以学习新的类别。

图1 (a)稳定性可塑性难题; (b)不可靠的经验风险最小化

本文的主要内容如下:第1节介绍了FSCIL的问题定义及相关研究背景。第2节总结了现有的FSCIL方法,包括传统机器学习方法、基于元学习的方法、基于特征和特征空间的方法、基于重放的方法以及基于动态网络结构的方法。第3节展示了不同FSCIL方法在基准数据集上的表现。第4节讨论了FSCIL在不同领域的应用。第5节对未来的研究方向进行了简要的讨论。

1问题定义

1.1 何为FSCIL

在监督学习中,我们的目标是学习一个函数f,该函数能够预测给定输入样本x的目标向量y。通过训练数据D,这些数据包含了足够多的独立同分布实例,模型能够学习如何将输入与输出关联起来。上述过程中涉及到的期望风险和经验风险的概念,关注点是在给定数据分布上最小化预测与实际标签之间的误差。FSCIL的挑战在于如何让模型在一个基础的训练任务中学习到足够的知识,并在后续任务中,面对有限的训练数据仍能有效学习新类别,同时不遗忘先前任务的知识。面对每个新的数据集,模型既要学习新类别,也要保持对旧类别的识别能力。其数据组织形式可参见图2。

1.2 相关学习问题辨析

为了避免歧义,在这里简要说明与FSCIL相近的一些概念。

(1)小样本学习:模仿人类用很少的样本迅速识别新事物的能力,FSL期望模型能在学习了大量数据后,用极少的样本迅速学习新类别。主要方法分为基于微调、数据增强和迁移学习。

(2)单样本学习:单样本学习是FSL的特例,当每个类别只有一个样本时,这个问题成为单样本学习。由于在多数情况下两者的设定较为相似,因此通常可以互换使用。

(3)零样本学习(ZSL):ZSL则是一个更为极端的情况,当没有样本可供学习时,模型需通过其他方式(如类别的语义属性)来进行类别识别。ZSL的理念借鉴了人类的学习和推理能力,使计算机也具备了一定的迁移和推理能力。

(4)元学习:元学习常被称作“学会学习”,它旨在提取多次学习经历中的经验,并使用这些经验来提升未来的学习性能。

(5)迁移学习:就像骑自行车后更易学会摩托车,迁移学习让机器用在某任务上学到的知识解决新任务,迁移学习在数据丰富的旧域与数据匮乏的新域之间建立了桥梁。它可以显著减少在目标领域中构建机器学习模型所需的数据量

(6)增量学习:与FSCIL稍有不同的是,增量学习为每个新增类别提供了充足的样本。这个领域也被称作持续学习或终身学习。

图2 FSCIL数据组织形式

2 小样本类增量学习方法

图3 FSCIL理论发展时间线

2.1 基于传统机器学习的方法

基于传统机器学习的小样本类增量学习方法从监督方式、统计优化和函数优化等角度出发,具有较高的模型可解释性。这些方法通常有较少的超参数,因此更容易理解和调整。如Cui等人将半监督学习方法引入到FSCIL中,基于前人研究,他通过在每个增量阶段加入了50个未标记的数据,而训练过程中将无标签数据与有标签数据协同训练来提高FSCIL的性能。Achituve等人从统计分布的角度出发,提出了GP-Tree模型以应对普通高斯过程分类器在大量类别分类任务时的不足。GP-Tree是一种基于树的分层模型,通过使用Polya-Gamma数据增强,对数据进行高斯过程拟合,可很好地适应新类的数量和数据大小。Shi等人发现在基类上训练得到的平坦局部极小值比尖锐极小值具有更好的泛化能力,因而基于鲁棒性优化的方法通过在基数据中找到平坦的最小值并在平坦区域内调整新任务的模型,从而显著减轻了灾难性遗忘。

2.2 基于元学习的方法

在小样本学习或增量学习中,元学习方法可以利用已有知识来解决当前学习问题,并通过不断积累知识来提高系统的稳定性和可靠性。我们将基于元学习的FSCIL方法细分为基于原型的方法和元过程的方法。原型学习旨在识别代表给定数据集的一组原型范例,并根据数据点与现有原型的相似性对新的数据点进行分类或完成其他视觉任务,与传统的监督学习方法相比,原型学习需要更少的标记数据,因此天然的适用于FSCIL。基于普通原型的方法简单地聚合所有学习到的类原型可能会使其中一些无法区分,因此Zheng等人引入类结构正则化器来规范FSCIL中学习到的类在嵌入空间中的分布方式,类分布可以作为先验知识来规范新课程的学习。使来自相同或不同的任务中的类都具有区分性。学习矢量量化(LVQ)是一种原型聚类方法,它选择向量点作为原型,以距离作为聚类标准,Chen等人在深度嵌入空间中使用基于LVQ的非参数方法。他们将学习任务的信息压缩在少量量化参考向量内,包括类内变异、较少的遗忘正则化以及校准参考向量以减轻灾难性遗忘。Yao等人提出了一种受人类认知启发的FSCIL原型表示增强方案。该方法使用原型表示并通过探索与先前学习的类的相似性相关性来迭代学习新类的知识。

小样本类原型和真实数据分布之间的语义分布差距,是阻碍当前基于原型方法的FSCIL精度提升的主要原因。受多任务优化方法MAXL的启发,Chi等人将适应新知识和记住旧知识直接转化为元目标,提出了MetaFSCIL的元过程方法。他们通过从基类中抽取一系列增量任务来模拟元测试期间的场景。进一步提出了一种基于元学习的双向引导调制来自动适应新知识。

2.3 基于特征与特征空间的方法

基于特征与特征空间的FSCIL方法细分为子空间表示、前瞻性学习和特征解耦三种方式。子空间表示通过将原始数据映射到低维空间中,以保留原始数据的有用特征,提高学习算法的效率。基于子空间表示的FSCIL通过将新类数据投影到基类或旧类特征组成的子空间中,使模型更好的适应新类。如Akyurek等人提出了子空间正则化方案,它鼓励新类的权值表示靠近现有旧类的权重所跨越的子空间,因为正则项的简单易用,可以将更多的先验知识融入其中。

向后兼容性是软件更新过程中需要着重考虑的问题,要求较新版本的软件能够接受在先前版本下数据。与之相反,向前兼容性要求旧版本的软件能够接受新版本的数据。从这个角度来看,FSCIL中克服遗忘的能力代表了模型的向后兼容性,即新任务上训练的模型不能忘记旧类样本。我们定义前瞻性学习是指使模型具有前向兼容性能的表现或能力。Zhou等人提出LIMIT模型,其从基数据集创建伪FSCIL任务并进行采样,通过元学习从不同的假任务中获得了可概括的特征,为真实FSCIL工作准备模型。同时基于transformer创建的元校准模块,帮助生成特定于实例的嵌入,进一步提高了性能。

特征解耦的方法通过将特征分离到不同的表示中,提高了模型的可解释性。如Zhao等人发现特征分离后的低频分量有助于保留旧知识,他们利用离散余弦变换来分离特征,并提出了一种频率感知正则化方法来提高空间内学习性能。

2.4 基于重放的方法

在增量学习中,基于重放的方法通常分为两种:一种是保存旧任务的例子,另一种是使用生成模型记忆旧任务数据的分布。类似地在FSCIL中,我们也将重放方式分为保存重放与生成重放两种方式。在保存重放方法中,最具代表性的为语义感知知识蒸馏方法,它通过为先前类别存储少量样例,同时加入词嵌入作为辅助信息并将图像映射到向量空间中从而证明了基于重放的知识蒸馏方法对于FSCIL的有效性。鉴于存储真实旧数据导致的隐私问题,旧类样本往往不能保存,Liu等人引入用于合成旧样本的无数据重放方案,通过施加熵正则化促进生成器生成接近决策边界的不确定性例子。

2.5 基于动态网络结构的方法

动态网络结构允许网络在运行过程中根据输入数据的特征自动调整网络结构,以适应新的数据,因此具有较强的泛化能力并减少过拟合的风险。基于动态神经网络思想,Yang等人提出了一种可学习的扩展和压缩网络(LEC-Net)。通过尝试性地扩展网络节点,LEC-Net扩大了特征的表示能力,从模型正则化的角度减少了旧网络的特征漂移。进一步,他们提出动态支持网络模型(DSN)。DSN能自适应的扩展网络,在每个增量任务中,DSN利用压缩网络扩展来丰富特征表示,并调用旧的类分布来动态调整特征空间。在每次训练中,DSN都会尝试性地扩展网络节点以扩大增量类的特征表示能力。然后它通过节点自激活动态压缩扩展的网络以追求紧凑的特征表示,从而减轻过拟合。Tao等人提出TOPIC架构,他们使用神经气体网络(NG)来学习由不同类别形成的特征空间拓扑以进行知识表示。通过稳定NG的拓扑结构防止对旧类的遗忘。当新的类别出现时,动态增长NG来适应新的样本,从而提高了小样本新类的表示。图注意力网络可动态地处理不同的图数据,并根据学习图上的节点和边的重要性,对不同的图做出动态决策。Zhang等人首先用基数据训练特征提取器,随后引入图注意力模型,将图注意力网络用于classifier层来适应增量任务的变化,随着增量任务的到来,图模型的节点和权重动态增加。

3 性能

3.1 数据集介绍

虽然目前还没有专门为小样本类增量学习设计的数据集,但研究者们基于现有的数据集构建了新的任务。目前常用的数据集有三个。CIFAR-100:包含100个类别,每个类别有600张彩色图片,每个类别分为500张训练图片和100张测试图片,图片尺寸为32x32像素。MiniImageNet:包含60000张84x84像素的彩色图片,每个类别及样本数量与CIFAR-100相同,但内容更为复杂。CUB-200:专注于精细的鸟类识别,共有11788张图片,包含200个鸟类子类别。训练集有5994张图片,测试集有5794张图片,图片尺寸为224×224像素。

表1 FSCIL中常用数据集

3.2 性能比较

我们主要关注了模型在各个阶段的准确率、所有阶段的平均准确率(AA),以及性能下降率(PD)。PD是指最后一个阶段的准确率相对于基础阶段的下降幅度。在当前的各类方法中,都使用了ResNet结构作为骨干网络,尽管具体的ResNet模型(如ResNet-12,ResNet-18,或ResNet-20)有所不同。

在CIFAR-100这个较小的数据集上, NC-FSCIL方法表现突出, 准确率达到了67.50%。而在MiniImageNet这个更具挑战性的数据集上,利用自监督学习进行数据增强的FeSSSS方法取得了68.24%的准确率,这显示了其在减少知识遗忘方面的优势。在细粒度的CUB-200数据集上,DSN方法凭借超过70%的准确率取得了良好的性能,显示出它捕捉类别之间微妙差异的强大能力。

表2 各类方法在标准数据集上性能比较

逐任务分析不同方法的性能,如图4。可发现,模型在基础类别上的准确率限制了在增量阶段的准确率提升。尽管一些初期方法(如TOPIC、SPPR、基于VAE的方法)的基准数据集准确率为70%到80%,很少有方法在基础数据集上的准确率超过80%(如F2M、DSN、NC-FSCIL)。作为最早的研究之一,TOPIC在训练的每个会话中已不再具有竞争力。而基于函数优化的F2M和基于动态神经网络的DSN仍显示出高性能优势。

图4 各类方法在CUB-200数据集上学习曲线

4 小样本增量学习应用

FSCIL从计算机视觉中发展而来,其应用目前也已扩展到自然语言处理和图技术当中,由于篇幅限制,在本文中我们仅讨论其在图像分类和目标检测中的应用。

4.1 图像分类

对于对图像进行分类的需求不断增长,Bai等人提出了一种线性编程增量学习分类器,专门用于高光谱成像。在视频监控中的行人属性识别场景,随着识别新属性需求的增长,旧模型变得不适用。因此,Xiang等人借鉴元学习思想,使用属性原型生成模块和属性关系模块,从标注数据中生成新的分类权重。

对于通用分类任务而言,FSCIL的方法往往忽略了学到的表征之间的区分力,因此不适用于精细的图像任务。Wang等人提出了MetaSearch模型,旨在解决购物和结账过程中的小样本增量产品搜索问题。MetaSearch模型通过提取不同类别间的特征差异来执行增量产品搜索。其设计的多池化基础特征提取器能捕获细粒度产品类别间细微的差异,因而提升了分类的准确度。

Li等人为了解决精细化车辆识别问题,提出了一种紧凑且可分离的特征学习方法(CSFL)。CSFL首先将特征提取器和分类器解耦,并使用度量学习来训练特征提取器。在类别增量阶段,只更新分类器,并引入增量LDA来学习类内紧凑和类间可分的特征,从而赋予模型细粒度图像识别的能力。面对更具挑战性的超细粒度视觉分类任务,Pan等人提出了使用自我监督学习和知识蒸馏来提升网络骨干的特征提取能力,从而在细粒度数据集上的表现优于传统FSCIL方法。

4.2 目标检测

在物体检测方面,通过少量样本学习对计算机系统来说具有重要的实际意义。Kang等人受元学习启发,提出了一种新颖的小样本检测模型。但由于该模型缺乏随时间从数据流中增量学习新目标的能力,无法扩展到开放环境和边缘设备的实际部署中。

Perez等人引入了增量小样本物体检测(iFSD)范式,其中通过不同的任务逐渐提供新的类别。基于CenterNet的一期检测方法,Perez提出的ONCE模型旨在解决iFSD问题。首先,模型使用大量基础数据集来训练一个类通用特征提取器;然后,通过元学习算法训练每个新类别的类特异性代码生成器,以注册新类别。逐步出现的新类样本只需通过前向传播在元训练阶段注册,无需回顾基础类或迭代更新,适用于嵌入式设备上的部署。

在实际应用中,Tambwekar等人针对道路物体检测提出了一个小样本批量增量方法,设计了DualFusion架构,其中包含了用于基础类别检测的Faster R-CNN、一个新类别检测网络和一个融合网络。在检测每一个新类别时,只使用10个注释实例。尽管访问基础数据集只需一次,所有新的少量样本数据必须保留,以永久访问新类别数据。

5 总结与展望

随着人工智能技术的迅猛发展,我们的生活正逐渐被各式各样的智能系统所包围。FSCIL就是其中的一项令人兴奋的技术,它使计算机能够像人类学习者一样,在面对有限数据和不断变化的任务时,迅速且高效地学习新知。想象一下,一个机器人只通过几张照片就能学会识别一个新出现的水果,或者一个智能医疗系统能够在紧急情况下迅速适应新的病毒变种——这就是小样本增量学习概念的魅力所在。

为了使这一领域更进一步,理论的深化、实验设置的优化以及应用的扩展是我们未来研究的三大核心方向。首先,在理论层面,我们不仅追求算法的性能提升,同时还要关注算法的复杂度与资源消耗。此外,测试标准的改进也尤为关键,它能帮助我们更精准地评价一个模型在多样任务和基础数据集上的表现。比如,尝试评估模型在学习过程中各个阶段的准确性变化,而不仅仅是基础和最终任务的准确性,这将为我们提供更全面的性能评估。再来谈谈实验的设定,我们应该更贴近实际应用的需求,例如探索在每个增量学习阶段中处理可变数量的新类别和样本的方法。同时,研究如何将小样本学习与任务学习、领域学习结合起来,这也是一个非常有前景的研究方向。至于应用方面,我们已经见证了FSCIL在音频分类、雷达信号识别、网络入侵检测和医疗时间序列分类等领域的成功应用。然而,这些方法大多限于单一场景,缺乏可扩展性。因此,构建一个适用于多种场景的统一理论框架,解决复杂的多模态任务,成为了我们未来的研究重点。

FSCIL坚实的理论基础和丰富的应用前景,都预示着它将在实际应用中大放异彩,为深度学习的下一个浪潮提供动力。

作者:
田松松 , Lusi , 李卫军 , 冉航 , 宁欣 , Prayag Tiwari

单位信息:
1、中国科学院半导体研究所;2、中国科学院大学电子电气与通信工程学院;3、中国科学院大学集成电路学院;4、半导体神经网络智能传感与计算技术北京市重点实验室;5、Department of Computer Science, Old Dominion University;6、School of Information Technology, Halmstad University

引用

Tian S, Li L, Li W, et al. A survey on few-shot class-incremental learning[J]. Neural Networks, 2024, 169: 307-324.

公众号后台回复“数据集”获取100+深度学习各方向资源整理

极市干货

技术专栏:多模态大模型超详细解读专栏搞懂Tranformer系列ICCV2023论文解读极市直播
极视角动态欢迎高校师生申报极视角2023年教育部产学合作协同育人项目新视野+智慧脑,「无人机+AI」成为道路智能巡检好帮手!
技术综述:四万字详解Neural ODE:用神经网络去刻画非离散的状态变化transformer的细节到底是怎么样的?Transformer 连环18问!

点击阅读原文进入CV社区

收获更多技术干货


【声明】内容源于网络
0
0
极市平台
为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
内容 8155
粉丝 0
极市平台 为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
总阅读5.7k
粉丝0
内容8.2k