大数跨境
0
0

极市直播预告|ICCV2023-MFF: 简单高效的多级特征融合自监督方法

极市直播预告|ICCV2023-MFF: 简单高效的多级特征融合自监督方法 极市平台
2023-08-15
0
导读:本周四晚八点,不见不散!
↑ 点击蓝字 关注极市平台

|极市线上分享第120期 |

一直以来,为让大家更好地了解学界业界优秀的论文和工作,极市已邀请了超过100位技术大咖嘉宾,并完成了119 期极市线上直播分享。

往期分享请前往bbs.cvmart.net/topics/149或直接阅读原文,也欢迎各位小伙伴自荐或推荐更多优秀的技术嘉宾到极市进行技术分享,与大家一起交流学习~~

本次分享我们邀请到了上海人工智能实验室柳源,为大家详细介绍他们的工作:
Improving Pixel-based MIM by Reducing Wasted Modeling Capability(ICCV2023)
“图片掩码学习大致可以分为两个部分: 基于像素的图片掩码学习和基于高维表征的图片掩码学习。相较于后者,基于像素的图片掩码学习具有结构简单,计算开销小等有点,例如 MAE。但是,我们发现,这些基于像素的图片掩码学习方法倾向于关注在一些高频的信息上面,例如图片中的纹理,线条等,极大地消耗了模型去关注图片语义信息的精力。从这个点出发,我们首先验证了基于像素的图片掩码学习方法确实存在过度关注高频信息的问题,提出了通过在用于重建的高维特征中注入低维信息,让模型更关注提取图片的语义信息上。这种方案非常简单,能够轻易插入到大多数基于像素的图片掩码学习方法中。我们在 PixMIM MAE 上进行了实验,发现了在各种任务上都有较大的提升。”

01

直播信息

时间

2023年8月17日(周四):20:00-21:00


主题

MFF: 简单高效的多级特征融合自监督方法
直播

B站也将同步进行

http://live.bilibili.com/3344545

02

嘉宾介绍

柳源

上海人工智能实验室,研究方向为多模态,自监督学习,基础模型。


03

关于分享

➤分享大纲

1.Pixel-based 图片掩码学习

2.Pixel-based 图片掩码学习为何倾向于关注高频信息

3.多层级视觉特征融合的动机

4.多层级视觉特征融合的具体实现

5.深入讨论多层级视觉特征融合带来的收益以及其适用范围

论文

Improving Pixel-based MIM by Reducing Wasted Modeling Capability

论文地址:

https://arxiv.org/pdf/2308.00261.pdf

代码地址:

https://github.com/open-mmlab/mmpretrain/tree/dev

04

参与方式

05

往期回顾

极市平台专注分享计算机视觉前沿资讯和技术干货,特邀请行业内专业牛人嘉宾为大家分享视觉领域内的干货及经验,目前已成功举办119期线上分享。近期在线分享可点击以下标题查看:


更多往期分享请浏览:极市计算机视觉技术分享集锦

http://bbs.cvmart.net/topics/149/cvshare),也可以点击阅读原文获取。

【声明】内容源于网络
0
0
极市平台
为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
内容 8155
粉丝 0
极市平台 为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
总阅读919
粉丝0
内容8.2k