近期,Transformer模型在视觉领域大放异彩。Vision Transformer(ViT)出现开启了视觉模型架构设计的新纪元。ViT在大量数据量预训练的情况下可以在ImageNet分类上取得优异的性能。然而,ViT中使用的原始注意力机制具有很高的计算复杂度,从而大大限制了ViT模型作为通用的骨干网络应用到视觉领域的各个下游任务中,特别是需要处理高分辨图片的任务如目标检测、语义分割、或者图像增强。
在这次分享中,我们邀请到了德克萨斯大学奥斯汀分校博士生涂正中,为我们介绍他们提出的宇宙最强骨干网络:
MaxViT:Multi-Axis Vision Transformer (ECCV 2022)
“这是一个混合了卷积和稀疏的多轴注意力的模型架构。具体的,我们提出了一个具有全局和局部感知的、稀疏的多轴注意力模块,仅仅与图像尺寸成线性复杂度,大大优化了原始注意力的平方复杂度。MaxViT作为一个通用的层级型的全局骨干网络在多达五个主流视觉任务上取得了SoTA性能。
Bonus:同时我们也会串讲一篇基于类似想法的底层视觉骨干网络 MAXIM: Multi-Axis MLP for Image Processing (CVPR 22 Oral),获得最佳论文提名奖。其中,我们提出了一个UNet型的骨干网络,基于一个并行设计的全局/局部的多层感知机算子。MAXIM作为一个通用的底层视觉网络在多达五个底层视觉任务包括去噪、去模糊、去雾、去雨和低光照增强上均取得了SoTA性能。两篇文章证明了我们提出的全局、局部的多轴稀疏方法可以在几乎任何的视觉任务上取得先进的性能,为未来的稀疏注意力设计指明了方向。”
极市直播丨ECCV2022-涂正中:让谷歌的骨干网络MaxViT治好你的科研内耗
➤分享大纲
1、视觉Transformer与注意力机制的介绍
2、相关工作介绍
3、MaxViT骨干网络
4、MaxVIT性能和效果展示
5、MAXIM骨干网络
6、MAXIM性能和效果展示
7、总结和展望
➤论文
Multi-Axis Vision Transformer(ECCV2022)
论文地址:
https://arxiv.org/abs/2204.01697
代码地址:
https://github.com/google-research/maxvit
MAXIM: Multi-Axis MLP for Image Processing (CVPR 22 Oral)
论文地址:
https://arxiv.org/abs/2201.02973
代码地址:
https://github.com/google-research/maxim
➤回放视频在这里☟
https://www.bilibili.com/video/BV1hG411b773/
➤PPT内容截图(后台回复“极市直播”或点击阅读原文即可获取PPT)



B站:http://space.bilibili.com/85300886#!/
腾讯视频:http://v.qq.com/vplus/8be9a676d97c74ede37163dd964d600c
往期线上分享集锦:http://m6z.cn/6qIJzE(或直接阅读原文)
如果觉得有用,就请分享到朋友圈吧!
推荐阅读
备注:姓名-学校/公司-研究方向-城市(如:小极-北大-目标检测-深圳)
即可申请加入极市目标检测/图像分割/工业检测/人脸/医学影像/3D/SLAM/自动驾驶/超分辨率/姿态估计/ReID/GAN/图像增强/OCR/视频理解等技术交流群
每月大咖直播分享、真实项目需求对接、求职内推、算法竞赛、干货资讯汇总、与 10000+来自港科大、北大、清华、中科院、CMU、腾讯、百度等名校名企视觉开发者互动交流~
觉得有用麻烦给个在看啦~