大数跨境
0
0

NeurIPS 2023|SVT:微软提出散射视觉Transformer全新backbone,性能表现出色!

NeurIPS 2023|SVT:微软提出散射视觉Transformer全新backbone,性能表现出色! 极市平台
2023-11-12
2
↑ 点击蓝字 关注极市平台
作者丨雨沐林风
来源丨AICV与前沿
编辑丨极市平台

极市导读

 

本文提出了一种称为散射视觉Transformer(SVT),SVT包含一个光谱散射网络,可以捕获复杂的图像细节。SVT通过分离低频和高频分量克服了与下采样操作相关的可逆性问题,并引入了一种独特的频谱门控网络,利用爱因斯坦乘法进行token和信道混合,有效降低了复杂度。 >>加入极市CV技术交流群,走在计算机视觉的最前沿

文章地址:https://badripatro.github.io/svt

项目地址:https://github.com/badripatro/svt

0 导言

视觉transformer在各种计算机视觉任务(包括图像分类、实例分割和目标检测)中获得了极大的关注,并取得了最先进的性能。

现状: 在解决注意力复杂性和有效捕获图像中的细粒度信息方面现有的解决方案通常采用下采样操作(如池化)来降低计算成本,这种操作是不可逆转的,可能导致信息丢失。

解决: 提出了一种称为散射视觉Transformer(SVT)的新方法来解决这些挑战,SVT包含一个光谱散射网络,可以捕获复杂的图像细节。

  • SVT通过分离低频和高频分量克服了与下采样操作相关的可逆性问题。

  • SVT引入了一种独特的频谱门控网络,利用爱因斯坦乘法进行token和信道混合,有效降低了复杂度。

实验表明,SVT在ImageNet数据集上实现了最先进的性能,显著降低了许多参数和FLOPS。SVT比LiTv2和iFormer提高了2%。SVT-H-S达到84.2%的top-1精度,而SVTH-B达到85.2%(最先进的基础版本),SVT-H-L达到85.7%(也是最先进的大版本)。

创新点:

  • 引入一种基于DTCWT变换的新型可逆散射网络,将图像特征分解为低频和高频特征。

  • 提出了一种新的SGN,它使用TBM混合低频表示,使用EBM混合高频表示。在爱因斯坦乘法的帮助下,使用信道和token混合的有效方法来混合高频分量。

1 方法

1)背景:DTCWT及低高频解耦概述

离散小波变换(DWT)用一组局部振荡的基函数取代无限振荡的正弦函数, 这些基函数被称为小波。小波是低通缩放函数 和带通小波函数 的移位版本的组合。它可以用数学形式表示如下:

其中 为标度系数, 为小波系数。

DWT存在以下问题:振荡、移位方差、混叠和缺乏方向性。解决上述问题的方法之一是利用复值变换和小波函数进行复小波变换。双树复小波变换(DTCWT)解决了复小波变换的问题。DT-CWT非常接近于反映傅里叶变换的吸引人的特性,包括平滑,非振荡幅度,几乎移位不变的幅度,信号移位的简单近线性相位编码,大大减少了混叠;在高维空间有更好的方向选择性。这样可以更容易地检测图像的边缘和方向特征。小波变换的六个方向由15◦,45◦,75◦,105◦,135◦和165◦给出。双树CWT采用两个实DWT,第一个DWT给出变换的实部,第二个DWT给出变换的虚部。两个实际的小波变换使用两组不同的滤波器,这两组滤波器被联合设计来给出整个复小波变换的近似,并满足完美重构(PR)条件。

表示上频段的低通和高通滤波器对, 表示下频段的滤波器对。两个实小波与两个实小波变换中的每一个相关联, 分别为: 。利用半样本延迟条件, 可以近似得到复小波变量为: 近似于 的希尔伯特变换

同样,可以定义 。由于滤波器是实数, 因此不需要复杂的算法来实现DTCWT。它只是在一维中扩展了两倍, 因为总输出数据速率正好是输入数据速率的两倍。它也很容易反转, 因为两个独立的 可以反转。与DTCWT相比, 傅立叶变换很难获得图像的低通和高通分量, 并且不可逆(当我们进行傅立叶变换和傅立叶反变换时损失很高)。此外, 它不能同时谈论时间和频率。

2)SVT方法

图1 SVT模型的分散和注意层结构的架构细节

图1详细说明了SVT体系结构的不同组件。散射视觉变压器由三个部分组成:a)散射变换,b)光谱门控网络,c)光谱通道和token混合。

给定输入图像𝐈∈λ 3×224×224,将图像分割成大小为16×16的patch,并使用位置编码器和token嵌入网络对每个patch token进行嵌入。 表示位置和token网络编码网络。

A.散射变换:

首先将输入图像I patchified 成空间分辨率为 、通道数为 的特征张量 。为了提取图像的特征, 将 X 输入到一系列的转换层中。使用一种新的基于可逆性散射网络的频谱变换来代替标准的自注意网络。这使得网络能够同时捕获图像中的细粒度和全局信息。细粒信息包括纹理、图案和由频谱变换的高频分量编码的小特征。全局信息由光谱变换的低频分量编码的整体亮度、对比度、边缘和轮痵组成。

给定特征 ,使用DTCWT进行散射变换,通过 散射(<e:1>) <s:1>得到相应的频率表示 。频域变换 提供两个分量, 一个低频分量即尺度分量 , 一个高频分量即小波分量 实分量的简化表达式为:

表示分辨率, 表示方向选择性。

B.频谱门控网络

本文提出了一种新的方法一一光谱门控网络(SGN), 从散射变换的低频和高频分量中提取光谱特征。图1显示了本文方法的体系结构。使用可学习的权重参数来混合每个频率分量, 但对低频和高频使用不同的混合方法。对于低频分量 , 使用了张量混合方法(TBM), 这是一种新技术。TBM使用元素张量乘法(也称为Hadamard张量积)混合

具有相同的尺寸。 是图像的低频表示, 它捕获图像的全局信息。最大的挑战之一是在高频分量 中获得有效的特征, 这些分量是复值的, 并且比低频分量的维度多 倍。因此, 对高频分量使用相同的张量混合方法 将增加 倍的参数数量和计算成本(GFLOPS), 其中 表示方向选择性, 因子' 2 '表示包含实数和虚数的复值。为了解决这个问题, 提出了一种新的技术, 爱因斯坦混合方法 (EBM), 在提出的频谱门控网络中有效地混合高频分量 和可学习的权重参数 。通过EBM可以捕获图像中的细粒度信息, 如纹理、图案和小特征。

EBM的执行流程如下:首先重塑一个张量A,从从 ,其中 。然后定义一个W大小的权重矩阵 。沿着最后两个维度在A和𝑊之间进行爱因斯坦乘法,得到一个混合特征张量 ,如图2所示。EBM的公式为:

图2 EBM方法

C.频谱信道和token混合

在高频组件的通道维度中执行EBM,称之为频谱通道混合,然后在高频组件的token维度中执行EBM,称之为频谱token混合。首先重塑一个张量 ,从 ,其中 ,定义一个权重矩阵 。然后,沿着最后两个维度在 之间执行爱因斯坦乘法, 得到一个混合特征张量: 。通道混频器中EBM的公式为:

为了在Token维度中执行EBM, 首先重塑高频分量 , 其中 。定义一个权重矩阵 。然后, 沿着最后两个维度在 之间执行爱因斯坦乘法, 得到一个混合特征张量: 。token混合中 的公式为:

⧆因代表了爱因斯坦乘法, 偏差方面 。现在, 高频门控网络中权重参数的总数为 , 而不是 , 其中 和偏置为 。这减少了在图像中执行高频门控操作时参数和乘法的数量。实际操作中使用一个标准的torch包来执行爱因斯坦乘法。最后, 使用低频表示和高频表示进行逆散射变换, 将谱域还原到物理域。SVT架构由 层组成, 包括 分散层和 关注层, 其中 表示网络的深度。散射层是可逆的, 通过低通和高通滤波器有效地捕获图像中的全局和细粒度信息, 而注意力层则专注于提取语义特征和处理图像中存在的长期依赖关系。

2 实验结果

将SVT与LiTv2 (Hilo)进行比较,LiTv2 (Hilo)分解注意力以找到低频和高频分量。LiTv2的top-1准确率为83.3%,而SVT在参数数量较少的情况下的top-1准确率为85.2%。将SVT与从视觉数据中捕获低频和高频信息的iFormer进行了比较,其中SVT使用一种可反演的光谱方法即散射网络来获取低频和高频分量,并分别使用张量和爱因斯坦混合来捕获视觉数据中的有效光谱特征。SVT top-1精度为85.2,优于iFormer-B,在参数数量和FLOPS较少的情况下,其精度为84.6。

将SVT与WaveMLP进行比较,后者是一种基于MLP混频器的技术,使用幅度和相位信息来表示图像的语义内容。SVT使用低频分量作为原始特征的幅值,而高频分量捕获输入图像中复杂的语义变化。研究表明,如表1所示,SVT的性能比WaveMLP高出约1.8%。wave - vitb在多头注意方法的关键和值部分使用小波变换,而SVT使用散射网络,利用爱因斯坦和张量混合来分解具有可逆性和更好方向性的高低频分量,SVT比wave - v - b高出0.4%。






公众号后台回复“数据集”获取100+深度学习各方向资源整理

极市干货

技术专栏:多模态大模型超详细解读专栏搞懂Tranformer系列ICCV2023论文解读极市直播
极视角动态欢迎高校师生申报极视角2023年教育部产学合作协同育人项目新视野+智慧脑,「无人机+AI」成为道路智能巡检好帮手!
技术综述:四万字详解Neural ODE:用神经网络去刻画非离散的状态变化transformer的细节到底是怎么样的?Transformer 连环18问!

点击阅读原文进入CV社区

收获更多技术干货

【声明】内容源于网络
0
0
极市平台
为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
内容 8155
粉丝 0
极市平台 为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
总阅读12.0k
粉丝0
内容8.2k