复刻 NLP 领域 GPT/BERT这套范式的成功是视觉领域的一大时代愿景。目前已有工作例如 BEiT/MAE 验证了 BERT/Masked Modeling 预训练算法可以很自然地从 NLP Transformer 迁移到 Vision Transformer,但如何再迁移到卷积网络 CNN 上仍是一个未解难题。
本次分享我们邀请到了北京大学研究生田柯宇,为大家介绍他们ICLR 2023上的工作:
Designing BERT for Convolutional Networks: Sparse and Hierarchical Masked Modeling
这是自 2016 inpainting-based 自监督工作出现以来,首次在卷积模型上做成功的 BERT/MAE 形式的自监督预训练。SparK 适用于包括 ResNet 在内的任何 CNN 模型,对下游性能实现跨模型尺寸级别的提升,并显著超对比学习、超 Swin-Transformer,初步展现了 BERT/MAE 在卷积网络上的巨大潜力。
PS:本次分享对没做过预训练但对想了解BERT/MAE的同学们也会很友好,另有简要的代码解读~
下面是一份更详细的解读文章:
极市直播预告|田柯宇:卷积网络上如何做BERT/MAE预训练,ResNet也能用
➤论文
➤回放视频在这里☟



往期线上分享集锦:http://m6z.cn/6qIJzE(或直接阅读原文)
如果觉得有用,就请分享到朋友圈吧!
推荐阅读
# CV技术社群邀请函 #
备注:姓名-学校/公司-研究方向-城市(如:小极-北大-目标检测-深圳)
即可申请加入极市目标检测/图像分割/工业检测/人脸/医学影像/3D/SLAM/自动驾驶/超分辨率/姿态估计/ReID/GAN/图像增强/OCR/视频理解等技术交流群
每月大咖直播分享、真实项目需求对接、求职内推、算法竞赛、干货资讯汇总、与 10000+来自港科大、北大、清华、中科院、CMU、腾讯、百度等名校名企视觉开发者互动交流~

