大数跨境
0
0

视觉 Transformer 的可视化|CVPR2021

视觉 Transformer 的可视化|CVPR2021 极市平台
2021-03-07
0
导读:一种开源的Transformer可视化新方法,能针对不同类呈现不同且准确的效果。​
↑ 点击蓝字 关注极市平台

报道丨极市平台

极市导读

 

可视化对于Transformer的模型调试、验证等过程都非常重要,FAIR的研究者开源了一种Transformer可视化新方法,能针对不同类呈现不同且准确的效果。 >>加入极市CV技术交流群,走在计算机视觉的最前沿

近两年,“Transformer”的热潮从自然语言处理领域席卷至计算机视觉领域。Transformer及其衍生方法不仅是几乎所有NLP基准测试中最先进的方法,还成为了传统计算机视觉任务中的领先工具。在结果公布不久的CVPR2021中,与Transformer相关的工作数量也十分可观。

来自FAIR和以色列特拉维夫大学的学者在CVPR2021中发表了一篇名为“Transformer Interpretability Beyond Attention Visualization”的论文。在这篇论文中,作者提出了一种计算Transformer网络结构相关性的新颖方法,首次实现Transformer的可视化能针对不同类呈现不同且准确的效果。

该方法基于深度泰勒分解原理分配局部相关性,而后将相关性传播到各层。与以往方法相比不同的是,它的传播涉及注意层和残差连接。与此同时,作者在最新的视觉Transformer网络以及文本分类任务上进行了基准测试,证明了该方法相对于现有可解释性方法的明显优势。

目前,作者已经公布了该工作的开源代码:

代码地址:https://github.com/hila-chefer/Transformer-Explainability
论文链接:https://arxiv.org/abs/2012.09838

论文简介

可视化对于Transformer的模型调试、验证等过程都非常重要,而目前现有工作对于Transformer可视化的探索并不是很多。

过去可视化Transformer模型常见的做法是,针对单个注意力层,将注意力视为相关性得分;另一种则是组合多个注意力层,简单地平均获得每个标记的注意力。但由于更深的层更具有语义,而每次应用自注意力时,每个标记都会积累额外的上下文,这会导致信号模糊,各层的不同作用被忽视,并使得不相关的标记被凸显。

Transformer严重依赖于残差连接和注意力运算符,这两者都涉及两个激活图的混合。此外,Transformer使用ReLU以外的其他非线性因素,这会同时带来正向和负向的特征。由于存在非正值,如若处理不当,则残差连接会导致数值的不稳定。

针对上述问题,本文作者引入适用于正面和负面归因的相对传播规则,并提出了针对非参数层的归一化项,如矩阵乘法。同时,整合注意力与相关性得分,并将结果整合到多个注意力模块中。

在实践中,计算机视觉使用的许多可解释性方法并不是特定于类的,即无论尝试可视化的类是什么,即便对于包含多个对象的图像,也会返回相同的可视化效果。因而特定于类的信号通常会因为图像的显著区域而变得模糊。本文的方法则设计提供了基于类的分离,这也是目前唯一能够呈现此属性的Transformer可视化方法。

方法介绍

本文采用基于LRP[1]的相关性来计算Transformer每一层中每个注意力层的得分,通过合并相关性和梯度信息,通过迭代消除负面影响,然后将它们整合到注意力图中,得到自注意力模型特定于类的可视化。

相关性和梯度

为分类头的类数, 为要可视化的类,并传播关于 的相关性和梯度。将 表示为层 的输入,其中 是由 层组成网络中的层索引, 是输入, 是输出。通过链式规则,将梯度传播到分类器的输出

表示该层在两个张量 上的操作。通常,这两个张量是输入特征图和第 层的权重。相关性传播遵循通用的深度泰勒分解公式:

非参数相关传播

Transformer模型中有两个运算符涉及两个特征图张量的混合(与具有学习张量的特征图相反):残差连接和矩阵乘法。这两个运算符需要通过两个输入张量传播相关性。给定两个张量 ,我们计算这些二进制运算符的相关性传播如下:

证明得到:

相关性和梯度扩散

为一个由 模块组成的Transformer模型,其中每一个模块由自注意力,残差连接以及附加的线性层和归一化层组成。该模型将维数为 ,长度为 的标记序列作为输入,为类别输出作特殊标记,输出由分类标记向量计算出的长度为 的分类概率向量 。自注意模块在输入维度为 的小空间 上运行, 为head数量。自注意模块的定义如下:

实验与结果

对于语言分类任务,作者使用基于BERT的模型作为分类器,假设最多512个标记,并使用分类标记作为分类头的输入。对于视觉分类任务,作者采用基于ViT的预训练模型。输入图像尺寸为 的所有不重叠色块的序列,线性化图层以生成向量序列。

下图给出了本文的方法与各种基线方法之间的直观比较。可以看出,本文方法获得了更加清晰一致的可视化。

下图显示了带有两个对象的图像,每个对象来自不同的类。可以看出,除GradCAM之外,所有方法对不同类都产生了相似的可视化效果,而本文方法则取得了两个不同且准确的可视化效果,因而证明该方法是特定于类的。

下表为在ImageNet验证集上,预测类别和目标类别的正负扰动AUC结果。

ImageNet分割数据集上的分割性能:

本文方法不同消融方案性能:

更多细节可以参考论文原文。在极市平台后台回复关键词"Transformer",即可获取论文原文。

参考文献:
[1] Alexander Binder, Gre ́goire Montavon, Sebastian La- puschkin, Klaus-Robert Mu ̈ller, and Wojciech Samek. Layer-wise relevance propagation for neural networks with local renormalization layers. In International Conference on Artificial Neural Networks, pages 63–71. Springer, 2016. 1, 7, 8


推荐阅读


搞懂Vision Transformer 原理和代码,看这篇技术综述就够了(三)

2021-02-26

10个重要问题概览Transformer全部内容

2021-02-24

用Pytorch轻松实现28个视觉Transformer,开源库 timm 了解一下!(附代码解读)

2021-02-19


极市原创作者激励计划 #


极市平台深耕CV开发者领域近5年,拥有一大批优质CV开发者受众,覆盖微信、知乎、B站、微博等多个渠道。通过极市平台,您的文章的观点和看法能分享至更多CV开发者,既能体现文章的价值,又能让文章在视觉圈内得到更大程度上的推广。

对于优质内容开发者,极市可推荐至国内优秀出版社合作出书,同时为开发者引荐行业大牛,组织个人分享交流会,推荐名企就业机会,打造个人品牌 IP。

投稿须知:
1.作者保证投稿作品为自己的原创作品。
2.极市平台尊重原作者署名权,并支付相应稿费。文章发布后,版权仍属于原作者。
3.原作者可以将文章发在其他平台的个人账号,但需要在文章顶部标明首发于极市平台

投稿方式:
添加小编微信Fengcall(微信号:fengcall19),备注:姓名-投稿
△长按添加极市平台小编

△点击卡片关注极市平台,获取最新CV干货

觉得有用麻烦给个在看啦~  
【声明】内容源于网络
0
0
极市平台
为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
内容 8155
粉丝 0
极市平台 为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
总阅读7.6k
粉丝0
内容8.2k