大数跨境
0
0

SOTA级别的分类性能!HAM:轻量高效又不失超强性能的注意力机制

SOTA级别的分类性能!HAM:轻量高效又不失超强性能的注意力机制 极市平台
2022-08-17
1
导读:实现性能和模型复杂度之间的良好权衡
↑ 点击蓝字 关注极市平台

作者丨Ziyang Li
编辑丨极市平台

极市导读

 

现有注意力机制难以做到对性能和模型复杂性之间的良好权衡,在兼顾通道和空间注意机制的同时带来额外的巨大负担。因此本文提出的HAM通过快速一维卷积来缓解通道注意机制的负担,并引入通道分离技术自适应强调重要特征。HAM作为通用模块,在CIFAR-10、CIFAR-100和STL-10数据集上实现了SOTA级别的分类性能。 >>加入极市CV技术交流群,走在计算机视觉的最前沿

写在前面的话

现有注意力机制难以做到对性能和模型复杂性之间的良好权衡,在兼顾通道和空间注意机制的同时带来额外的巨大负担。因此本文提出的HAM通过快速一维卷积来缓解通道注意机制的负担,并引入通道分离技术自适应强调重要特征。HAM作为通用模块,在CIFAR-10、CIFAR-100和STL-10数据集上实现了SOTA级别的分类性能。

论文地址:https://doi.org/10.1016/j.patcog.2022.108785

一、问题导出

本文旨在实现一种轻量且高效的,兼顾通道与空间的注意力机制。此前如CBAM也兼顾通道与空间的重要性,但带来较高的模型复杂性。CBAM模块能够序列化地在通道和空间两个维度上产生注意力特征图信息,其结构细节如下图所示:

图1:CBAM模块的通道注意力和空间注意力结构细节。

然而在其通道注意力模块中,多层感知机的应用增加了模型的复杂程度。因此设计一种简单有效的注意力模块是非常有必要的,在本文的HAM中,作者等人不仅对通道注意模块的设计进行了简化,同时提出“通道注意图代表了不同通道的不同重要性,因此空间注意子模块应该将通道细化特征沿通道轴线分成若干组”,引入通道分离技术,对空间注意模块进行优化。

二、方法

图2:ResBlock嵌入HAM的架构整体。

首先从HAM嵌入ResBlock的整体架构入手,输入特征 首先经过通道注意模块,就像CBAM中的通道注意机制一样,先通过 得到通道注意张量 ,接着 相作用得到通道细化特征

然后是空间注意模块,通道分离技术将 切分为两组不同的特征,一组为重要特征 ,一组是次重要特征 ,接着对两个不同分支的特征应用空间注意机制,如CBAM中的空间注意机制一般,先从输入特征 获得空间注意张量 ,将空间注意张量作用于输入特征后获得空间细化特征 ,将两者特征相融合得到最终的细化特征 ,也即原始输入特征 经过HAM后得到的最终结果。

在CIFAR-10、CIFAR-100和STL-10数据集的分类任务中,HAM可以达到SOTA级别的性能。下面将对HAM的各部分细节进行详细描述:

通道注意模块

图3:HAM的通道注意模块示意图。

如图3,输入特征 首先经过两个分支的不同池化得到 ,这与CBAM中保持一致,平均池化可以学习到目标物体的程度信息,最大池化则能够学习到物体的判别性特征,同时使用的话,最大池化编码目标的显著性信息,能够很好地弥补平均池化编码的全局信息。

然而作者等人认为“平均池化和最大池化在图像特征提取的不同阶段发挥着不同的作用”,并根据此设计了一种自适应的选择机制。如图3中的Adaptive mechanism Block所示, 分别乘以可学习参数 (两者均为0到1之间的浮点数),同时各自乘以1/2后相加,最后三者进行逐元素相加得到 ,该过程可用如下公式表示:

最终得到的 中不仅对原有特征信息进行了保留,同时自适应调整特征倾向,丰富了特征。

最后HAM使用快速一维卷积而不是MLP来实现跨通道的信息交互,这样做的好处有两点:1.模型的复杂性大大降低;2.模型性能将不受通道降维的影响。另外快速一维卷积拥有自适应核大小K,其大小由通道数C决定(公式中其他量均为超参数),其计算公式如下:

最终的通道注意张量 由特征经Sigmoid函数激活后输出,并与原输入特征作用得到通道细化特征 ,该特征将作为下一步空间注意模块的输入。

空间注意模块

图4:HAM的空间注意模块示意图。

如图4,输入特征 为经过通道注意模块的通道细化特征,其中每个通道都具有不同的重要性(在数值表现上,通道注意张量 中重要的通道权重更大)。因此作者等人提出应将通道细化特征 沿通道轴线进行划分,重要特征分为一组,次重要特征分为一组。

如何实现这一操作,作者等人引入一个超参数 来控制,将 的通道维度相乘,即可得到重要特征组的通道维度(需要注意乘积结果取最近偶数值)。然后利用这一重要特征通道维度,定义两种掩码组,一组掩码由重要特征为1,次重要特征为0组成,另一种掩码则刚好相反。将两种掩码与输入特征 分别进行逐元素相乘,就得到了两组分离后的特征,如图4所示, 即为分离后的特征。

同CBAM中空间注意模块一样,对 进行两种池化,并将池化结果拼接,得到两组输出特征。接着这两组特征被内核大小为7×7的共享卷积层卷积,生成两组大小为H×W×1的特征图,分别经归一化和激活操作得到对应的空间注意张量

分别与分离后的特征 相乘,得到对应的空间细化特征 ,将二者逐元素相加,即为最终的细化特征,至此HAM模块结束。

关于通道注意模块和空间注意模块的排序问题:有读者可能会想到能否将通道和空间注意模块的顺序进行调换甚至并行,其实早在CBAM中就对这一问题进行过实验验证,因为两种注意机制的作用不同,因此序列的使用两种注意机制,效果要优于并行的使用,同时先使用通道注意模块要优于先使用空间注意模块。

三、性能对比

在实验部分,作者等人依次对各种通道注意模块、空间注意模块进行性能对比,并对空间注意模块中不同的通道分离率进行单独的实验验证。

表1:各种通道注意模块的对比。
表2:各种空间注意模块的对比。
表3:不同通道分离率的性能对比。
表4:各模型+注意力机制的性能对比。

四、思考与总结

本文通过对以往兼顾通道、空间的注意机制进行思考,设计一种简单有效的注意模块,实现了性能和模型复杂度之间的良好权衡。在通道注意模块中,通过自适应的特征选择机制实现了不同阶段的特征倾向,并对传统的MLP进行改进,以自适应核大小的快速一维卷积来代替,既避免了通道降维的影响,又大幅度降低了参数量。在空间注意模块中,创新的提出通道分离技术,将重要特征与次重要特征“区别”对待,并以共享卷积层来建立2D注意力图。

实验结果证明HAM是一种简单有效的注意力模块,在CIFAR-10、CIFAR-100和STL-10数据集上实现了SOTA级别的分类性能~

公众号后台回复“极市直播”获取极市直播第100期(视频实例分割新SOTA:SeqFormer&IDOL)PPT下载~

△点击卡片关注极市平台,获取最新CV干货


极市干货
算法竞赛:1000W奖池,AI算法等你来战!粤港澳大湾区(黄埔)国际算法算例大赛正式开赛!
技术综述防止模型过拟合的方法汇总浅析深度学习在图像处理中的应用趋势及常见技巧
极视角动态:极视角与惠普签署战略合作协议,共拓智慧工业市场极智产品融合|极视角罗韵解读「行业+AI」融合创新的实操手册

极市平台签约作者#


Ziyang Li

知乎:Ziyang Li


东电机器人专业在读,一个努力上进的CVer,一个普普通通的学生。

研究领域:先进传感技术、模式识别、深度学习、机器学习。

希望将路上的收获分享给同样前进的你们,共同进步,一起加油!


作品精选

CVPR 2022 Oral|百度&中科院开源新的视觉Transformer:卷积与自注意力的完美结合

性能远超ConvNeXt?浅析谷歌提出的「三合一」transformer模型MaxViT+伪代码分析

ICPR 2022|3DUNet:卷积+胶囊强强联手,医学图像分割的新良方



投稿方式:
添加小编微信Fengcall(微信号:fengcall19),备注:姓名-投稿
△长按添加极市平台小编



点击阅读原文进入CV社区

收获更多技术干货

【声明】内容源于网络
0
0
极市平台
为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
内容 8155
粉丝 0
极市平台 为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
总阅读7.6k
粉丝0
内容8.2k