大数跨境
0
0

多模态大型语言模型和苹果的MM1

多模态大型语言模型和苹果的MM1 七元宇宙
2024-04-15
0
导读:这篇博文将深入探讨 Apple 的“MM1:来自多模态 LLM 预训练的方法、分析和见解”论文背后的架构和发现

这篇博文将深入探讨 Apple 的“MM1:来自多模态 LLM 预训练的方法、分析和见解”论文背后的架构和发现

抽象是计算机科学中最关键的概念之一,具有一些最强大的含义。从简单的角度来看,抽象是将某些东西应用于多种不同情况的能力。例如,如果您创建了一种在工厂中根据苹果大小成功分类苹果的方法,则可以将解决方案抽象为也以相同的方式对橙子或桃子进行分类。因此,通过抽象,一个非常强大的解决方案能够从根本上影响世界的多个部分。

虽然大型语言模型在给定文本作为输入时在推理方面非常出色,但最近我们已经能够抽象它们的输入,以便它们可以对图像和声音进行推理。

下面的博客文章介绍了 Apple 的 MM1 论文中的架构消融及其在构建多模态大型语言模型 (MLLM) 时的研究结果。

抽象 LLM 输入

大型语言模型背后的架构可以追溯到 2017 年的论文“Attention is All You Need”,其中引入了 Transformer 架构。

这篇论文展示了如何将人类语言转换为符号,然后由神经网络处理(在那篇论文中,处理成不同的语言)。

从图中可以看出,我们在早期进行了一次转换,我们将输入转换为标记(嵌入部分)。但是,没有固有的原因可以将文本数据映射到令牌。因此,该领域开始尝试将其他类型的数据映射到令牌。

MM1 架构基础

Apple 的模型有 3 个关键组件:视觉转换器 (ViT) 图像编码器、视觉语言连接器和大型语言模型。假设您已经对 LLM 是什么以及它是如何工作的有了很好的了解,那么让我们深入了解图像编码器和 VL 连接器。

图像编码器和视觉连接器

虽然从抽象的角度来看,我们可以将文本和图像想象为不同类型的输入,但要完成这项工作,我们需要接受我们可能必须以不同的方式对待它们才能将它们转换为标记形式。目前,我们有 2 个不同的系统可以帮助我们将图像转换为 LLM 可以推理的标记:图像编码器和连接器。
首先,图像编码器负责获取我们的图像并将其转换为我们的转换器模型可以理解的标记表示。
其次,连接器是从视觉编码器获取数据并将其转换为直接传递到大型语言模型的数据的部分。鉴于图像编码器返回令牌,您可能想知道为什么我们需要连接器。这个想法似乎是图像编码器在其标记中提供了太多信息,因此为了在优化推理的同时降低成本,我们希望对所传递的内容有选择性。
下图显示了我们在这里使用的数据流。

消融

机器学习中的消融研究围绕着删除和修改模型的某些部分展开,以了解它们对整体性能的贡献。Apple 的研究集中在训练图像编码器的不同方法、用于 VL 连接器的不同投影仪以及不同的预训练数据上。
让我们深入了解主要发现。
让我们来看看上面的主要部分并解释它们是什么。
CLIP 代表对比语言图像预训练,旨在通过为被视为文本的事物提供名称来帮助模型学习视觉概念。如下图所示,这会将图像与文本编码配对,以便模型最终将视觉标记(在下图中表示为 I,与文本标记 T)连接起来。这种方法称为对比训练。
AIM代表自回归图像模型,它通过重建损失优化算法进行训练。这里的目标是查看转换器是否可以重新创建(重建)它所给定的图像。
这里的图像分辨率是指馈入变压器的像素数。例如,378 x 378 的图像分辨率意味着我们将传入该大小的矩阵,然后将其转换为嵌入,然后对模型进行训练。训练数据在 (DFN-2B)、(DFN-5B)、(DFN-5B + VeCap) 和 (ImageText-400M) 之间拆分。
作者发现图像分辨率最为重要,其次是模型大小,然后是训练数据内容。具体来说,他们发现图像分辨率越好,模型在零拍摄和少拍摄提示方面的表现就越好。由于需要更多的计算来训练和运行具有更高图像分辨率要求的模型,这表明对于 Vision Transformer 来说,计算仍然是最重要的。

VL 连接烧蚀

对于 VL 连接器,他们使用 64 或 144 个令牌对图像进行了测试,对图像分辨率使用了 224、336 和 378 进行了测试,并在几种架构之间进行了选择。我将简要介绍下面的架构。
平均池化顾名思义,取所有代币的平均值,然后对这个平均值进行线性投影,使网格为 8x8 或 12x12。
注意力池假设图像标记应被视为来自与文本标记根本不同的总体集的样本。在这里,我们调整每个图像的输入数量,在论文中称为 k 个可学习查询。研究人员只考虑了 64 或 144 的 k。
卷积映射是 Honeybee 的一种方法,它使用 ResNet 动态决定从图像传递到 LLM 的标记数量。这在 C-Abstractor 模块中实现了。
;上面可以看出,不同的架构实际上影响很小。 正如人们可能猜到的那样,分辨率越高的图像和通过的令牌越多,所有连接器的性能都会提高,但效果并不明显。
这一发现表明,我们要么还没有找到将图像编码器连接到LLM的更好方法,要么这个领域根本不是优秀模型能够脱颖而出的地方。

预训练数据消融

在这里,作者使用了 4 种不同类型的数据:带字幕的图像、合成的带字幕的图像、交错的图像-文本数据和纯文本数据。他们找到了 4 节课,每节课都有一个图表来总结性能变化。

首先交错数据有助于提高少镜头和纯文本性能,而字幕数据有助于实现零镜头性能。研究人员改变了他们所做的交错程度,下图显示了结果。正如你所看到的,在用交错数据训练的模型上,少样本提示的表现明显优于用全有或全无训练的模型。
其次,纯文本数据有助于进行少量推理。在此上下文中,纯文本意味着训练数据包括图像示例和纯文本示例。这样做是为了确保模型理解人类语言和图像。将仅字幕与带文本的标题进行比较显示,除了 0-shot 推理之外,其他所有推理都有明显的改进,但是,除了 TextCore 测试之外,interleaved-only 的表现都优于交错加文本。
第三,如果你在图像和文本之间得到正确的混合,你可以获得非常强大的性能。上图显示了交错 + 标题数据与纯文本数据的不同比率。由于目标是拥有一个多模态模型,因此如果您没有任何图像数据,他们从未测试过性能。这里的作者指出,91/9 的比率产生了最一致的良好结果。
第四,合成数据有助于小样本学习。VeCap 代表 Visual-enriched Caption,这是一种创建标题的方法,以便它们能够确保描述图像的关键视觉部分。相反,想象一个标题,它可能会解释照片背后的含义,但不能解释照片中的任何元素。如果您的数据抓取工具发现替代文本数据较差的图像,您通常会这样做。
作者在这里得出的结论是,VeCap在小样本推理方面提供了“非平凡的”提升,但质量的提升相对较小。这引发了对VeCap成本效益的质疑。

结果

利用消融的结果,作者创建了两种形式的变形金刚:专家混合和常规。两种型号都有一个带有 378 x 378 图像的编码器,仅使用 DFN-5B 数据集进行预训练。他们混合了 45% 的字幕数据、45% 的交错数据和 10% 的纯文本数据(近似于图像与文本数据的 91:9 比例)。VL 连接器有 144 个标记,他们选择了 C 抽象器,尽管他们指出这是一个有点武断的选择。对于LLM本身,他们创建了一个3B、7B和30B参数模型(MoE模型只能达到7B)。下图显示了这些模型的性能。
有趣的是,30B参数模型的性能与其他参数比它多数十亿的模型(LLaVA-NeXT-34B等)相当,这表明这里的参数大小和性能之间可能存在某种量子关系。
结束语
多模态 LLM 是该领域非常令人兴奋的部分。随着我们找到更好的方法将不同的数据类型传输到令牌中,我们可能会为这些转换器解锁更大的应用。当我们展望未来时,现在考虑如何在文本描述之外输入其他感官,例如声音、气味甚至触觉,这并非没有道理。数据质量可能只会变得更有价值。
由于作者得出的结论是,不同的语言连接器并没有产生重大差异,看看这是否意味着研究应该集中在图像编码器上,或者更确切地说,我们根本没有找到使用VL连接器的真正突破性方法,这将是一件有趣的事情。
这篇特定论文之外,出现的一个大问题是这些MLLM在基准测试之外的表现如何。随着 LLM 的激增,一个常见的批评围绕着使用基准来比较它们。通常,这些基准测试使用一致的数据集进行比较,即使无意中,也可以通过过度拟合来使一个模型做得更好。在 lmsys 的 LLM Arena 中使用 ELO 等方法,国际象棋评级算法可能会更好地真实地比较模型性能。
最后,随着更多的输入能够连接到 LLM,可以预期它们可以应用于的应用程序数量将会增加。只有时间才能证明我们能使这项技术有多大用处。
关注我,一起探索元宇宙!
免责声明:
以上发布内容和图片的目的在于传播更多行业信息,版权归原作者所有,不为商业用途,如有侵犯,敬请与我们联系。


【声明】内容源于网络
0
0
七元宇宙
AI、Web3、Meta聚合型精选内容分享。以前沿视角,探索科技未来;让每一个人,都走在时代的前沿
内容 3217
粉丝 0
七元宇宙 AI、Web3、Meta聚合型精选内容分享。以前沿视角,探索科技未来;让每一个人,都走在时代的前沿
总阅读38
粉丝0
内容3.2k