

仅需微调1%参数！Point-PEFT：PEFT 技术正式进军3D领域

极市平台

2024-01-14

↑ 点击蓝字关注极市平台

作者丨派派星

来源丨CVHub

编辑丨极市平台

极市导读

仅需1%的参数量就可以在下游任务上实现和完全微调相媲美的性能结果。 >>加入极市CV技术交流群，走在计算机视觉的最前沿

论文标题: 《Point-PEFT: Parameter-Efficient Fine-Tuning for 3D Pre-trained Models》
作者单位：上海人工智能实验室，西北工业大学
录用信息：AAAI2024
代码链接：https://github.com/Ivan-Tang-3D/Point-PEFT

论文链接：https://arxiv.org/abs/2310.03059

导读

PEFT, Parameter-Efficient Fine-Tuning 此前已经在NLP、2D 图像预训练大模型中被广泛应用(Prompt Tuning, Lora, Adapter等)，随着3D点云预训练模型的发展，PEFT技术如何应用到3D大模型中成为了研究者们所关切的问题。今天为大家介绍的 Point-PEFT 给出了解决方案，仅需1%的参数量就可以在下游任务上实现和完全微调相媲美的性能结果！

背景和动机

在自然语言领域，由大型文本语料库预训练的GPT系列表现出卓越的语言生成能力。在2D图像领域，ViT和多模态CLIP也展现了强大的视觉泛化能力。然而，这些大型模型的完全微调通常需要大量时间和计算资源。为了缓解这一问题，研究者已经提出许多相关的参数高效微调（PEFT）方法，主要将预训练大模型中的大部分训练参数冻住，并仅在下游任务中优化原有的极小部分参数或新插入的PEFT模块。常用技术包括适配器（Adapter）、提示调整（P-Tuning, Prompt-Tuning）和低秩适应（LoRA）。

但针对3D预训练模型的PEFT方法仍未被充分挖掘探索。因此，受语言和2D图像领域成功的启发，我们提出以下问题：我们能否开发一个针对3D点云的高效的PEFT框架？

为此我们提出了Point-PEFT，一个针对3D预训练模型的新型参数高效微调框架。针对点云的稀疏和不规则特性，我们引入了Point-prior Prompt和Geometry-aware Adapter模块，可以有效利用点云先验知识并细粒度地理解3D几何信息。

在不同的下游3D任务中，我们冻结了大部分预训练参数，只对任务特定的头部和我们的Point-PEFT组件进行微调，我们达成比完全微调更加卓越的性能表现，上图就展示了在ModelNet40数据集上Point-PEFT框架和完全微调在三个不同的Transformer-based模型上的性能对比。

方法

如上图所示，给定一个预训练的3D点云Transformer ，包含12个blocks和一个特定的下游任务头，我们在微调时冻结了大部分参数，只更新我们引入的Point-PEFT模块和特定的头。

对于输入的点云PC，首先通过Token Embed模块编码为M个point tokens。然后，我们在point tokens前附加初始化过的长度为K的prompt tokens，表示为P0。P0的每个token都加和了一个可学习的3D坐标来表示对应的空间位置。

对于第i个block，我们将上一个block的输出和Point-prior Prompt 的输出相连接作为输入，先后输入预训练的自注意层和带有残差连接的前馈网络（FFN）。之后，我们采用Geometry-aware Adapter模块（GA-Adapter）来编码细粒度的局部3D结构。

Point-prior Prompt

如上图(a)，为了创建点先验库，我们使用预训练的3D Transformer 对下游训练数据集T中的所有点云进行编码，沿样本维度连接训练集特征并作为下游3D领域的先验知识存储。对于输入的点云PC，我们先使用预训练的3D Transformer 来获取3D特征Ft。

紧接着，我们对Ft进行无参数注意力操作，以便从点先验库中自适应地聚合有用的语义信息。具体来说，输入点云特征Ft作为查询（query），点先验库中预编码的训练集特征作为键（key）和值（value）。在注意力机制中，我们首先计算查询和键之间的余弦相似度S，表示输入点云对先验训练集中所有3D知识的注意力分数。

随后，我们对相似度S进行排序，并获取前(K-2)个分数S(k-2)。相应地，我们选择值中对应的(K-2)个训练集特征X(k-2)。在此基础上，我们进行加权聚合得到Fa，代表了输入点云特征在聚合了点先验库中的先验知识后的结果。

之后，我们将原始特征Ft与Fa和X(k-2)连接起来，以获得当前点云及其所有相关3D先验语义的综合表示Pprior。对于第i个block，我们会逐元素地将Pprior与一组可学习的prompt tokens相加，得到最终的Point-prior prompt。我们通过先验的特定领域语义自适应地增强了可学习的下游知识，有助于更好的微调性能。

Geometry-aware Adapter

如上图(b)，在第i个block中，特征在经过预训练的自注意层和前馈网络（FFN）处理后，被送入几何感知适配器（Geometry-aware Adapter), 通过局部聚合来把握细粒度的几何信息，这与自注意层的全局交互相辅相成。

输入首先通过bottleckneck MLP进行转换，然后采用最远点采样(FPS）将数量下采样作为一组局部中心。之后，我们通过k-最近邻（k-NN）算法为每个局部中心获取邻近点。每个局部邻域被送入一个自注意层进行组内交互以把握每个组内的细粒度局部语义。

自注意层的权重在所有block中共享并有效地减少了可训练参数。在此基础上，我们使用最大池化操作来整合每个局部邻域内的特征。最后，参考PointNet++，我们将整合的局部特征通过加权求和传播到对应的k个邻近点，进一步通过MLP处理以获得输出。

实验

如上表所示，在ScanObjectNN数据集上我们的Point-PEFT框架在仅使用不到5%的可训练参数的情况下，超过了完全微调方法。我们框架带来的改进分别为Point-BERT提升了+1.9%，Point-M2AE提升了+0.1%，以及Point-MAE提升了+1.0%，表明我们的框架在复杂的3D场景下通过提取的细粒度几何信息具有巨大优势。得益于预训练的先验知识，我们的Point-PEFT框架在适应与真实世界扫描对象相关的任务方面具有更强的能力。

在ModelNet40数据集上通过不到4%的可学习参数，我们分别在Point-BERT、Point-M2AE和Point-MAE上取得了93.4%、94.1%和94.2%的性能，增益分别为+0.7%、+0.7%和+1.0%。这些结果指出了我们框架在处理稀疏和不规则点云特征方面的有效性。对于合成的点云对象，Point-PEFT框架能够同时把握全局形状并理解局部3D结构。

如上表所示，我们的Point-PEFT框架可以超越传统的PEFT技术并获得巨大的增益，相比于Prompt Tuning提高了5.5%，相比于Adapter提高了2.4%，相比于LoRA提高了2.8%，以及相比于Bias Tuning(BitFit)提高了4.1%。综合实验展示了我们框架相对于传统PEFT方法的优越性，表明我们提出的方法有效地将3D领域特定知识整合到PEFT框架中。

总结

在本文中，我们为大家介绍了Point-PEFT，一个专门针对点云预训练模型的参数高效微调框架。我们的方法在下游任务上实现了与完全微调相当的性能，同时显著减少了可学习参数的数量。

框架由一个几何感知适配器（Geometry-aware Adapter）和一个点先验提示（Point-prior Prompt）组成。几何感知适配器利用局部交互来提取细粒度的几何信息。点先验提示使用预训练的语义信息来进行增强。广泛的实验验证了Point-PEFT的有效性。我们期望Point-PEFT可以作为未来3D PEFT研究的baseline。