在Transformer模型应用于视觉领域的过程中,降低自注意力的计算复杂度是一个重要的研究方向。线性注意力通过两个独立的映射函数来近似Softmax操作,具有线性复杂度,能够很好地解决视觉Transformer计算量过大的问题。然而,目前的线性注意力方法要么性能明显不如Softmax注意力,要么引入了过多的额外计算量导致模型推理速度很慢,难以实际应用。
本次分享我们邀请到了清华大学自动化系博士生韩东辰,为大家详细介绍他们的工作:
FLatten Transformer: Vision Transformer using Focused Linear Attention(ICCV2023)
“为了解决这一问题,我们首先从聚焦能力和特征多样性两个角度分析了现有线性注意力方法的缺陷,进而设计了简单有效的改进措施,最终提出了一个全新的聚焦的线性注意力模块。我们基于DeiT、PVT、PVT-v2、Swin Transformer、CSwin Transformer等模型架构实现了我们的方法。分类、检测和分割实验证明,我们的方法同时具有高效性和很强的模型表达能力,能够取得显著的性能提升。”
➤论文
论文地址:
https://arxiv.org/pdf/2308.00442
代码地址:
https://github.com/LeapLabTHU/FLatten-Transformer
➤回放视频在这里☟



往期线上分享集锦:http://m6z.cn/6qIJzE(或直接阅读原文)
如果觉得有用,就请分享到朋友圈吧!
推荐阅读
# CV技术社群邀请函 #
备注:姓名-学校/公司-研究方向-城市(如:小极-北大-目标检测-深圳)
即可申请加入极市目标检测/图像分割/工业检测/人脸/医学影像/3D/SLAM/自动驾驶/超分辨率/姿态估计/ReID/GAN/图像增强/OCR/视频理解等技术交流群
每月大咖直播分享、真实项目需求对接、求职内推、算法竞赛、干货资讯汇总、与 10000+来自港科大、北大、清华、中科院、CMU、腾讯、百度等名校名企视觉开发者互动交流~

