

SAM 跨模态蒸馏新范式

极市平台

2024-01-31

↑ 点击蓝字关注极市平台

作者丨ZHUZhiyu@知乎（已授权）

来源丨https://zhuanlan.zhihu.com/p/675192918

编辑丨极市平台

极市导读

本文借助 transformer 易于解释的特点提出了基于token embedding 重要性的 weighted adaptation的方法。 >>加入极市CV技术交流群，走在计算机视觉的最前沿

给大家拜个早年！欢迎大家关注我们有关于SAM跨模态知识蒸馏的最新工作：Segment Any Events via Weighted Adaptation of Pivotal Tokens。(Arxiv Github)

我们都看到这几个月关于SAM，Large Pretrained Model等的工作层出不穷，但是他们大部分是基于常见模态的数据，比如图像，文本等。但是对于其他缺少大量标注数据的模态，这时如何有效的进行有效的pretrained知识迁移就变成了一个重要问题。在本文，为了解决这个问题，我们借助 transformer 易于解释的特点提出了基于token embedding 重要性的 weighted adaptation的方法。

1. 方法

具体的来说，我们的方法首先建立在一个理性的假设上。虽然我们期望network尽量减小不同modalities的分布差异，但是由于不同模态的内在的差异，我们是无法完全对齐一个模态的输入到令一个模态。这时，我们自然而然的想到一个问题就是不同的token embedding 对于最终的任务是否有重要性的区别？网络可解释性的论文能够对不同区域的feature 重要性给出支持，但是大多数工作需要借助反向传播的梯度进行解释。本来蒸馏需要我们同时跑两个网络，如果还要求对两个网络进行反向传播将会让训练开销大大增加。如果我们能够以比较低的代价（无需对teacher 进行反向传播）进行token重要性的评价的话，我们相信将对训练效率较大的帮助。

图1. 我们对transformer 整个过程进行了"超大量"的化简，其信息流动过程变成了如图所示

我们在此关注token-wise的重要性, 因此将transformer的 forward 过程精简为一个Markov Chain, 其中的状态转移矩阵为 , 其中代表self-attention matrix, 代表residual connect, 是一个layer-wise 的scaler 代表经过mlp处理后经过residual 和selfattention layer的信息含量比例的变化。