大数跨境
0
0

NeurIPS23|Aurora:多模态基础大模型的参数高效微调新方法,性能优于LoRA

NeurIPS23|Aurora:多模态基础大模型的参数高效微调新方法,性能优于LoRA 极市平台
2023-11-10
2
↑ 点击蓝字 关注极市平台
作者丨雨沐林风
来源丨AICV与前沿
编辑丨极市平台

极市导读

 

利用模态逼近生成0.1M可训练参数来实现多模态参数高效调谐,利用仅0.04%的预训练模型参数来探索低固有维数。>>加入极市CV技术交流群,走在计算机视觉的最前沿

文章地址:https://arxiv.org/pdf/2305.08381.pdf

项目地址:https://github.com/WillDreamer/Aurora

00  导言

现状: 参数高效迁移学习在人工智能的各个子领域获得了巨大的普及。其核心是使模型仅使用一小组参数来适应下游任务。最近,研究人员在多模态任务中利用了这种成熟的技术,并取得了有希望的结果,但是有两个关键问题仍未解决:

  • 如何进一步降低轻量化设计的复杂性,

  • 如何在极低参数下促进模态之间的对齐。

解决:提出了一个优雅的跨模式转移的提示框架(Aurora)来克服这些挑战。

  • 利用模态逼近生成0.1M可训练参数来实现多模态参数高效调谐,利用仅0.04%的预训练模型参数来探索低固有维数。

  • 提出极少参数场景下的信息上下文增强和门控查询转换模块为了更好地进行模态对齐。

对六个跨模式基准的全面评估表明,它不仅优于最先进的技术,甚至优于完全微调方法。

01 方法

1)背景

Frozen Backbone BLIP是一个统一的VLP框架,它具有多模态编码器-解码器(MED)混合架构,具有理解和生成能力。使用BLIP-base作为frozen骨干,预训练的权重可以从Salesforce下载。其视觉编码器为ViT-B,文本编码器为BERT,文本解码器将自注意层替换为因果自注意层。它使用跨注意层从编码的视觉表示中收集信息,并使用文本表示作为查询。可以灵活地在BLIP架构中选择不同的组件来执行不同的多模态下游任务。我们从核心的基于注意力的Transformer架构开始,该架构主要用于现有的大型多模态模型中的表示。将输入的图像/文本分成几个不重叠的patch,然后将这些patch附加一个[CLS]token送入嵌入层,然后将Transformer块以多头关注作为核心操作。它通过三个投影矩阵分别将输入嵌入复制到query、key、value中,其中l表示第l层。预训练模型包含许多密集层,它们执行矩阵乘法,如下所示:

其中 表示视觉、文本和跨模态。对于单模视觉/文本模态分支, 都来自视觉/文本模态。跨模态分支中, 来自文本模态, 其他两个来自视觉模态。假设总共有 层, 可以在多模态预训练模型中叠加所有基于注意力的权重矩阵, 并导出张量 , 其中d 为嵌入 token的维数, 为权重矩阵的总数。

参数更新 对于下游任务,直接更新全微调的权值张量会消耗大量的计算量,带来沉重的存储负担。本文目标是按照PETL方法的思想,用一些额外的可训练参数来更新知识。由于 的几余性, 希望对 的张量进行模态逼近,得到新的可学习权张量∆W,用于下游知识转移。

图1 Aurora和现有PETL方法对比

图1展示了Aurora和现有PETL方法之间的差异。在下游训练数据D上的反向传播可以表示为:

2)PETL的轻量级设计

图2 整体框架

为了确保一个成功的参数高效调优框架,重要的是优先考虑轻量级设计,使其易于部署和可伸缩性。当基于自注意的架构在大规模数据集上进行预训练时,由于在几乎无限的特征空间中单个类的响应有限,因此存在大量的特征冗余。事实上,存在一种低维再参数化,它与全参数空间一样有效地进行微调。这个固有的维数描述了解决优化问题所需的最小维数,它定义了一定程度的精度。将预训练参数作为一个张量,近似可以有效地保留低秩但具有判别性的非冗余特征,并沿一定方向缩小预训练大尺度模型的权值张量,从而使其更适合下游任务。因此,提出了一种新的模态近似方法Aurora,该方法利用模态近似来更新冻结的 。具体而言,借用CANDECOMP/PARAFAC (CP)分解的思想,将可学习参数∆W分解为一系列秩一张量,以探索特征中嵌入的固有维数,框架如图2所示。

CP分解 在典型的张量分解方法中, 三维张量有三种模式, 每一种模式都可以看作是张量在特定维度上的约简投影。给定三维更新后的权重张量 , CP分解将该张量分解为共 个排名第一的分量的和, 每个分量可以形式化为三个分解向量的外积, 在式中为

其中 为第 个分量的分解向量, 每个向量属于对应的模态矩阵, 中的列向量。 。另外, O表示外积, 为各分量的系数标量, 分解的秩。为了更好地理解, 在标量积和中, 每个分量对张量的值都有贡献:

式中 为三种模态的指标。

模态近似 在多模态任务中, 学习模态特定表征和模态融合表征都很重要。因此, 本文目标是实现模式逼近来更新冻结的基于注意力的权重张量 , 包括视觉/文本编码器中的自注意模块和多模态编码器中的交叉注意模块, 它们基于BLIP等预训练的多模态基础模型。

首先通过初始化三个模式因子, 即 , , 来近似这些模块中基于注意力的权重。 随机初始化为高斯分布, 带零, 使训练前 。U和V作为用于模态近似的全局因子是共享的, 这意味着Aurora考虑了跨模态的相互作用, 并在每个模态的这些权重矩阵之间共享知识。此外, 为了进一步捕捉每个模态的判别特征, 对模态 上的每个权矩阵分别随机初始化可学习系数向量 。有了这三个模态因子, 可以通过输入张量 的CP分解逆过程实现正向传播中的模态近似, 如下所示:

从提示学习的角度分析, 用附加的可训练参数 逼近预训练权参数 的思路, 本质上可以理解为软提示, 它基于CP分解对下游数据进行学习。这样的提示不仅对下游任务提供了更好的指导, 而且在设计上非常轻量化,极大地促进了预训练模型在统一机制下对许多跨模态任务的应用。

3)模态对齐设计

与直接插入可学习网络来显式实现跨模态对齐的现有方法不同,本文提出了两个有效的模块来对齐具有少量可训练参数的不同模态。因此,加上上面的模态近似,可以实现一个优雅的跨模态转移提示框架,它既轻量又高性能。

信息上下文增强 为了更好地进行模态对齐,本文的目标是在交叉注意模块之后提供可以激活融合功能的提示。受上下文学习(in - context Learning)发展的启发,演示模板对于提示是非常重要的。最直观的方法是对齐图像-文本对,以获得更多的跨模态上下文信息。然而,即使有相关的图像区域,仍然可能有不止一种方法来描述这些区域。有些文本可以准确地总结图像的内容,而其他文本则可能没有。在没有先验匹配文本信息的情况下,本文决定引入上下文增强模块来提供可能文本信息的覆盖。

采用BLIP中基于图像的文本分支, 设计了一个特定的跨模态提示调优演示模板。考虑到基于图像的文本分支 , 利用批 中所有维度为 的查询特征作为上下文进行增强。具体来

为了生成更有效的高级融合特征 , 将一批内的所有自适应加权查询特征丁与特定的融合特征 集合在一起形成演示模板。该形式可以自适应地吸收上下文查询信息, 对图像-文本匹配损失 得到更好的增强融合特征。

门控查询转换 模态对齐困难的另一个原因是多模态融合分支网络较深,在训练过程中可能导致文本信息丢失。为了解决这个问题,提出了一种受门控机制启发的新方法,以显式地模拟模态对齐过程中文本信息的相对贡献。具体来说,没有直接将融合表示f(交叉注意块的输出)与查询表示t(自注意块的输出)作为残差连接起来,而是学习了一个门控查询函数来平衡两种模式的贡献。门控查询转换包括两个步骤。

  • 首先, 实现如下的变换: , 其中 是零初始化的可学习变换矩阵和具有激活函数 的偏差。
  • 其次, 通过Softmax计算 '与 的乘积来计算查询门 初始化为零, 在训练开始时 '为零。因此, 查询门显式地度量查询表示在 公式中的贡献, 以更新融合表示

02 实验结果

可以观察到,Aurora(R=64)在仅使用其0.5%的参数的情况下,获得了与最先进的frozen backbone方法相当的结果。将等级提高到128时,Aurora可以进一步提升性能,超过所有frozen backbone方法,甚至超过一些具有更少可训练参数的完全微调方法。

为了进一步验证Aurora在视频文本检索领域的性能,在两个视频数据集MSRVTT和DiDemo上进行了实验,实验结果如表2所示,Aurora只需要0.1M左右的可训练参数,就可以直接获得比所有frozen backbone方法更好的性能,并且优于大多数全微调方法。这表明我们的Aurora在视频文本场景下具有出色的理解能力,即使可训练的参数相对较少。

与检索任务不同,VQA任务需要验证模型的多模态生成能力。Aurora共享多模态编码器和多模态解码器的可训练参数,以进一步减少参数的数量。从结果来看,Aurora优于UniAdapter和所有的全微调方法,这表明Aurora对于下游生成任务具有强大的迁移能力。

表4概述了Aurora在各种zero-shot多模态任务中的性能。很明显,在视觉语言预训练中,Aurora在需要最少的可训练参数的情况下实现了最高的zero-shot性能,这代表了更强大的通用理解能力。

公众号后台回复“数据集”获取100+深度学习各方向资源整理

极市干货

技术专栏:多模态大模型超详细解读专栏搞懂Tranformer系列ICCV2023论文解读极市直播
极视角动态欢迎高校师生申报极视角2023年教育部产学合作协同育人项目新视野+智慧脑,「无人机+AI」成为道路智能巡检好帮手!
技术综述:四万字详解Neural ODE:用神经网络去刻画非离散的状态变化transformer的细节到底是怎么样的?Transformer 连环18问!

点击阅读原文进入CV社区

收获更多技术干货

【声明】内容源于网络
0
0
极市平台
为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
内容 8155
粉丝 0
极市平台 为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
总阅读197
粉丝0
内容8.2k