极市直播回放第99期丨ECCV2022-涂正中：让谷歌的骨干网络MaxViT治好你的科研内耗

极市平台

2022-08-05

导读：附PPT下载地址

↑ 点击蓝字关注极市平台

近期，Transformer模型在视觉领域大放异彩。Vision Transformer（ViT）出现开启了视觉模型架构设计的新纪元。ViT在大量数据量预训练的情况下可以在ImageNet分类上取得优异的性能。然而，ViT中使用的原始注意力机制具有很高的计算复杂度，从而大大限制了ViT模型作为通用的骨干网络应用到视觉领域的各个下游任务中，特别是需要处理高分辨图片的任务如目标检测、语义分割、或者图像增强。

在这次分享中，我们邀请到了德克萨斯大学奥斯汀分校博士生涂正中，为我们介绍他们提出的宇宙最强骨干网络：

MaxViT：Multi-Axis Vision Transformer （ECCV 2022)

“这是一个混合了卷积和稀疏的多轴注意力的模型架构。具体的，我们提出了一个具有全局和局部感知的、稀疏的多轴注意力模块，仅仅与图像尺寸成线性复杂度，大大优化了原始注意力的平方复杂度。MaxViT作为一个通用的层级型的全局骨干网络在多达五个主流视觉任务上取得了SoTA性能。

Bonus：同时我们也会串讲一篇基于类似想法的底层视觉骨干网络 MAXIM: Multi-Axis MLP for Image Processing (CVPR 22 Oral)，获得最佳论文提名奖。其中，我们提出了一个UNet型的骨干网络，基于一个并行设计的全局/局部的多层感知机算子。MAXIM作为一个通用的底层视觉网络在多达五个底层视觉任务包括去噪、去模糊、去雾、去雨和低光照增强上均取得了SoTA性能。两篇文章证明了我们提出的全局、局部的多轴稀疏方法可以在几乎任何的视觉任务上取得先进的性能，为未来的稀疏注意力设计指明了方向。”

➤详情传送门

极市直播丨ECCV2022-涂正中：让谷歌的骨干网络MaxViT治好你的科研内耗

➤分享大纲

1、视觉Transformer与注意力机制的介绍

2、相关工作介绍

3、MaxViT骨干网络

4、MaxVIT性能和效果展示

5、MAXIM骨干网络

6、MAXIM性能和效果展示

7、总结和展望

➤论文

Multi-Axis Vision Transformer（ECCV2022）