大数跨境
0
0

重新聚焦Attention在微调大模型中的重要性

重新聚焦Attention在微调大模型中的重要性 极市平台
2023-05-28
0
↑ 点击蓝字 关注极市平台
作者丨Baifeng@知乎(已授权)
来源丨https://zhuanlan.zhihu.com/p/632301499
编辑丨极市平台

极市导读

 

在只微调一小部分参数的情况下超越fine-tuning,LoRA,VPT等方法!>>加入极市CV技术交流群,走在计算机视觉的最前沿

论文链接:https://arxiv.org/pdf/2305.15542

GitHub链接:https://github.com/bfshi/TOAST

我们发现在一个下游任务上微调大模型时,目前的方法(fine-tuning,LoRA,prompt tuning等等)往往无法将模型的attention聚焦在和下游任务相关的信息上。比如下方图1(b),我们把一个pretrained ViT迁移到下游的鸟类分类任务,却发现微调后得到的attention往往非常杂乱,这有可能会对模型在下游任务上的表现有影响。

图1:(a) 我们的方法通过重新聚焦模型的attention来大幅提升大模型在下游任务上的表现;(b) 目前的微调方法往往无法将模型的注意力集中到和下游任务有关的信息上(在这个例子里是前景的鸟)。

在这篇文章中我们发现,通过把模型的attention重新聚焦到和下游任务相关的信息上(图1(a)),我们可以大幅提高模型在下游任务的表现。我们的方法继承了我们之前关于top-down attention的工作:

CVPR23 Highlight|拥有top-down attention能力的vision transformer

简单来说,top-down attention是一种可以根据目前在做的task来相应地调整模型的attention的机制。在这篇工作中,我们重新聚焦attention的方法就是,首先把预训练过的模型固定住,在上面加一个top-down attention模块,然后在下游任务上只去微调这个top-down attention模块即可:

图2:我们的方法将预训练过的模型(蓝色部分)固定住,然后在上面加一个top-down attention模块(橙色部分)并且只微调这个模块。

我们在视觉和语言任务上都做了实验,在视觉上我们可以在只微调一小部分参数的情况下超越fine-tuning,LoRA,VPT等方法

TOAST是我们的方法

在语言任务上,我们在只微调7%左右的参数的情况下,可以超越fine-tune或者LoRA版本的Alpaca

欢迎大家评论!

公众号后台回复“对比学习综述”获取最新对比学习PDF资源
极市干货
极视角动态极视角亮相BEYOND Expo,澳门特别行政区经济财政司司长李伟农一行莅临交流极视角助力构建城市大脑中枢,芜湖市湾沚区智慧城市运行管理中心上线!
数据集:60+开源数据集资源大合集(医学图像、卫星图像、语义分割、自动驾驶、图像分类等)
多模态学习CLIP:大规模语言-图像对比预训练实现不俗 Zero-Shot 性能ALBEF:图文对齐后再融合,借助动量蒸馏高效学习多模态表征
点击阅读原文进入CV社区
收获更多技术干货

【声明】内容源于网络
0
0
极市平台
为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
内容 8155
粉丝 0
极市平台 为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
总阅读3.2k
粉丝0
内容8.2k