Vision Transformer的计算复杂度与token数目的平方成正比。因此,压缩推理时的token数目是一种直接且有效的压缩手段。但是,现如今的token压缩方法都将token压缩率视为人工设定的超参,这往往导致较差的性能。
本次分享我们邀请到了上海人工智能实验室通用视觉中心(OpenGVLab)见习研究员,厦门大学研究生陈锰钊,为大家详细介绍他们的工作:
DiffRate : Differentiable Compression Rate for Efficient Vision Transformers
“在这个工作中,我们首先构建了一个统一的token压缩框架,其整合了现有的两种token压缩方法:token pruning和token merging。进一步的,我们通过对不可微的token压缩率进行重参数,将其转换为可微分的对象。基于所提出统一token压缩框架和可微分token压缩率,我们可以很自然的将token pruning和token merging结合,实现压缩后的模型无需fine-tuning也可保持很好的性能。”
➤论文
论文地址:
https://arxiv.org/abs/2305.17997
代码地址:
https://github.com/OpenGVLab/DiffRate
➤回放视频在这里☟



往期线上分享集锦:http://m6z.cn/6qIJzE(或直接阅读原文)
如果觉得有用,就请分享到朋友圈吧!
推荐阅读
# CV技术社群邀请函 #
备注:姓名-学校/公司-研究方向-城市(如:小极-北大-目标检测-深圳)
即可申请加入极市目标检测/图像分割/工业检测/人脸/医学影像/3D/SLAM/自动驾驶/超分辨率/姿态估计/ReID/GAN/图像增强/OCR/视频理解等技术交流群
每月大咖直播分享、真实项目需求对接、求职内推、算法竞赛、干货资讯汇总、与 10000+来自港科大、北大、清华、中科院、CMU、腾讯、百度等名校名企视觉开发者互动交流~

