大数跨境
0
0

SAM 跨模态蒸馏新范式

SAM 跨模态蒸馏新范式 极市平台
2024-01-31
1
↑ 点击蓝字 关注极市平台
作者丨ZHUZhiyu@知乎(已授权)
来源丨https://zhuanlan.zhihu.com/p/675192918
编辑丨极市平台

极市导读

 

本文借助 transformer 易于解释的特点提出了基于token embedding 重要性的 weighted adaptation的方法。 >>加入极市CV技术交流群,走在计算机视觉的最前沿

给大家拜个早年!欢迎大家关注我们有关于SAM跨模态知识蒸馏的最新工作:Segment Any Events via Weighted Adaptation of Pivotal Tokens。(Arxiv Github)

我们都看到这几个月关于SAM,Large Pretrained Model等的工作层出不穷,但是他们大部分是基于常见模态的数据,比如图像,文本等。但是对于其他缺少大量标注数据的模态,这时如何有效的进行有效的pretrained知识迁移就变成了一个重要问题。在本文,为了解决这个问题,我们借助 transformer 易于解释的特点提出了基于token embedding 重要性的 weighted adaptation的方法。

1. 方法

具体的来说,我们的方法首先建立在一个理性的假设上。虽然我们期望network尽量减小不同modalities的分布差异,但是由于不同模态的内在的差异,我们是无法完全对齐一个模态的输入到令一个模态。这时,我们自然而然的想到一个问题就是不同的token embedding 对于最终的任务是否有重要性的区别?网络可解释性的论文能够对不同区域的feature 重要性给出支持,但是大多数工作需要借助反向传播的梯度进行解释。本来蒸馏需要我们同时跑两个网络,如果还要求对两个网络进行反向传播将会让训练开销大大增加。如果我们能够以比较低的代价(无需对teacher 进行反向传播)进行token重要性的评价的话,我们相信将对训练效率较大的帮助。

图1. 我们对transformer 整个过程进行了"超大量"的化简,其信息流动过程变成了如图所示

我们在此关注token-wise的重要性, 因此将transformer的 forward 过程精简为一个Markov Chain, 其中的状态转移矩阵为 , 其中 代表self-attention matrix, 代表residual connect, 是一个layer-wise 的scaler 代表经过mlp处理后 经过residual 和selfattention layer的信息含量比例的变化。

那么一个 N layers的transformer 就可以用这么一个公式来代表

那么问题随之而来, 就是 怎么求? 额, 一种简单粗暴的方法就是统一设置为某个固定的数, 但是经我们实验效果非常不好, 甚至可能降低网络性能。为了解决这个问题, 我们接下来对 进行一个拆解

我们可以看到 中其实包含了大量 的连乘, 于是我们在想 是否有某些性质可以帮助我们进行 的化简。令人惊喜的是多层的attention matrix 连乘的结果都会收敛!

那么借助于这个假设 有类似于下式的收敛性

我们对 可按如下描述进行化简

那么 的超参可以化简为一个 .此时我们可以乘一个1向量到化简后的matrix 上面来得到token-wise的重要性。

之后我们利用token-wise 的重要性对multi-layer 的feature map进行loss加权。下面的 用来平衡不同深度之间的weight。

整体training flow 如下

2. 结果

实验结果如下所示,领先其他方法。

实验视觉结果
实验结果
不同β的效果
不同α的结果

我们同时嵌入adapted sam 到LLM-SAM 联合的方法,效果如下。

详情请见:

Arxiv:https://arxiv.org/abs/2312.16222

Github:https://github.com/happychenpipi/EventSAM

还望各位大佬指点!

公众号后台回复“数据集”获取100+深度学习各方向资源整理

极市干货

技术专栏:多模态大模型超详细解读专栏搞懂Tranformer系列ICCV2023论文解读极市直播
极视角动态欢迎高校师生申报极视角2023年教育部产学合作协同育人项目新视野+智慧脑,「无人机+AI」成为道路智能巡检好帮手!
技术综述:四万字详解Neural ODE:用神经网络去刻画非离散的状态变化transformer的细节到底是怎么样的?Transformer 连环18问!

点击阅读原文进入CV社区

收获更多技术干货

【声明】内容源于网络
0
0
极市平台
为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
内容 8155
粉丝 0
极市平台 为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
总阅读919
粉丝0
内容8.2k