大数跨境
0
0

基于特征重组的零学习模型

基于特征重组的零学习模型 汇智智能体
2023-07-28
0
导读:零学习模型目的是在训练阶段没有收到任何任务的例子的情况下解决一个任务,让模型能够识别以前没有见过的物体。

零学习模型(Zero-Short-Learning, aka,. ZSL)目的是在训练阶段没有收到任何任务的例子的情况下解决一个任务,让模型能够识别以前没有见过的物体。本文将说明ZSL的实现原理,并以该领域的开山之作Learning To Detect Unseen Object Classes by Between-Class Attribute Transfer[1]展现该模型的效果,以此为认知SAM打基础。

基本概念

假设小孩和爸爸到了动物园,看到了马,然后爸爸告诉他:“看,有这样轮廓的动物就是马”;之后,又看到了老虎,告诉他:“看,这种身上有条纹的动物就是老虎。”;最后,又带他去看了熊猫,对他说:“你看这熊猫是黑白色的。”

然后,爸爸给小孩安排了一个任务,让他在动物园里找一种他从没见过的动物,叫斑马,并告诉了有关于斑马的信息:“斑马有着马的轮廓,身上有像老虎一样的条纹,而且它像熊猫一样是黑白色的。”

最后,小孩根据爸爸的提示,在动物园里找到了斑马。  

上述故事中包含了一套合理的推理流程,就是抽象了输入的属性语义信息(区别于局部信息和全局信息),经过属性特征重新组合,可以在输出的对象列表中挑选出输入列表没有的对象,如图1[2]所示。

这是很神奇的事,因为在监督学习和一部分无监督学习中,数据处理时输入和输出(训练集和测试/验证集)的标签是一一对应的,这意味着如果训练时没有相应的标签,就不会有该标签对应的输出。

图1 ZSL概念图

原理解析

现在从Learning To Detect Unseen Object Classes by Between-Class Attribute Transfer 看看ZSl是怎么实现的。

这篇文章的目的是研究“当目标类别没有可用的训练示例时的物体分类问题”,并介绍了基于属性的分类作为解决此问题的方法。

文章提出了利用高级语义属性(如形状、颜色或地理信息)进行对象检测的方法,而不是依赖于训练图像。

这些属性可以从不相关的图像数据集中预先学习,并可用于检测新的类别,而无需新的训练样本。

文章中的实验表明,基于属性的分类可以成功地检测到目标类别,而无需任何目标类别的训练图像。文章还比较了两种将属性整合到多类分类中的方法:直接属性预测(Direct Attribute Prediction, aka,. DAP)和间接属性预测(Indirect Attribute Prediction, aka,. IAP),并突出了它们之间的优势和差异。

其中的高级语义--属性,是ZSL的核心概念。深度学习推理的结果会以概率排序输出对象,ZSL在属性特征空间输出预测结果,再以属性为已知信息在知识库中匹配最终输出。

我们可以从下图直观的了解怎么从属性筛选结果的流程,如图2[3]所示:

图2 属性筛选流程

要实现这个过程,文中提出了DAP和IAP两种预测方式,如图3[4]所示。

图3 DAP和IAP

首先定义x是底层特征,yk是类特征,am是属性特征。对DAP来说,训练是的过程;

而IAP,训练的过程是:

DAP可以理解为一个三层模型(09年实验只用了单层感知机):

第一层是原始输入层,例如一张电子图片(可以用像素的方式进行描述);第二层是p维特征空间,每一维代表一个特征(例如是否有尾巴、是否有毛等等);第三层是输出层,输出模型对输出样本的类别判断。

在第一层和第二层中间,训练p个分类器,用于对一张图片判断是否符合p维特征空间各个维度所对应的特征;在第二层和第三层间,有一个语料知识库,用于保存p维特征空间和输出y的对应关系。

简单来讲,就是对输入的每一个属性训练一个分类器,然后将训练得出的模型用于属性的预测,测试时,对测试样本的属性进行预测,再从属性向量空间里面找到和测试样本最接近的类别。

直接属性预测方法有固定的类别—属性关系,通过样本与类别间的训练,蕴含了对属性值的训练,从而取得了相关的分类器参数。

在测试阶段,测试样本的属性值可被直接获取,从而可以推知样本所属的类别,这个类别也可以是一种训练阶段未出现样本的类别。

可见样本类别y1,...,yk和未见样本的目标类别z1,...,zl以及它们的属性a1,...,am之间的关系通过一个二值矩阵给出,矩阵中,形成的编码表示了对应一个给定的类y或者z。

属性am对于分类是有效还是无效,这个二值矩阵编码是通过人工有监督地给出的。属性分类器的训练通过那些可见的样本x和类别标号y进行训练。

在测试阶段,图像有效的属性am可以通过其后验概率p(am/x)表征,这个值可以通过之前训练的分类器给出;并且这些属性可以与待测试的类别z的后验概率建立起联系。

识别阶段,同样可利用f(x)来获得最大似然的输出类,这个类别可能来自具有训练样本的y类别空间,也可能来自未见训练样本的z类别空间。算法流程总结如下:

IAP的参考比较少,可以参考

Attribute Prototype Network for Zero-Shot Learning[5]

算法流程总结如下:

此外,论文还介绍了Animals with Attributes数据集,该数据集包含了超过30,000个动物图像及其对应的属性标签。

文中还比较了两种将属性整合到多类分类中的方法,即直接属性预测(DAP)和间接属性预测(IAP),并且强调了它们之间的优点和差异。

数据指出DAP的多类分类准确率为40.5%,而IAP的多类分类准确率为27.8%。这表明DAP相对于IAP在对象分类方面具有更好的性能。

存在的问题和未来发展

ZSL的重要形式毋庸置疑的,而ZSL的发展和应用仍充满了困难。

对模型本身而言,就是同一种属性,在不同的类别中,视觉特征的表现可能很大。

例如斑马和猪都有尾巴,因此在它的属性语义表示中,“有尾巴”这一项都是非0值,但是两者尾巴的视觉特征却相差很远。

如果斑马是训练集,而猪是测试集,那么利用斑马训练出来的模型,则很难正确地对猪进行分类,这就是领域漂移问题(domain shift problem);在高维空间中,某些点会成为大多数点的最近邻点。

由于ZSL在计算最终的正确率时,使用的是K-NN,所以会受到枢纽点问题(hubness problem)的影响,并且基于岭回归的方法会加重hubness problem。

语义间隔(semantic gap)同样是比较严重的问题,样本的特征往往是视觉特征,用深度网络提取到的特征,而语义表示却是非视觉的,这直接反应到数据上其实就是样本在特征空间中所构成的流型与语义空间中类别构成的流型是不一致的……

可以看出ZSL是一个近期可能快速进步的比较好发论文的研究领域,近年来相关领域的工作集中在处理图片和文字的对齐方式(视觉空间到语言空间的转换会丢失信息,语言空间表示视觉空间又存在噪声)。

期待未来ZSl能更好的发展应用到目前被行业看好的“大”模型技术中。

参考文献

[1] X. Wang, C. Chen, Y. Cheng, X. Chen and Y. Liu, "Zero-Shot Learning Based on Deep Weighted Attribute Prediction," in IEEE Transactions on Systems, Man, and Cybernetics: Systems, vol. 50, no. 8, pp. 2948-2957.

[2] Learning To Detect Unseen Object Classes by Between-Class Attribute Transfer
[3] https://blog.csdn.net/kuxingseng123/article/details/127873358
[4] Lampert C H, Nickisch H, Harmeling S. Learning to detect unseen object classes by between-class attribute transfer[C]//2009 IEEE conference on computer vision and pattern recognition. IEEE, 2009: 951-958.
[5] W. Xu, Y. Xian, J Wang, B. Schiele, Z. Akata. “Proceedings of the 34th International Conference on Neural Information Processing Systems” December 2020Article No.: 1843Pages 21969–21980.

【声明】内容源于网络
0
0
汇智智能体
让AI力量成为每个人的天赋!
内容 179
粉丝 0
汇智智能体 让AI力量成为每个人的天赋!
总阅读87
粉丝0
内容179