

多模态大型语言模型和苹果的MM1

七元宇宙

2024-04-15

导读：这篇博文将深入探讨 Apple 的“MM1：来自多模态 LLM 预训练的方法、分析和见解”论文背后的架构和发现

这篇博文将深入探讨 Apple 的“MM1：来自多模态 LLM 预训练的方法、分析和见解”论文背后的架构和发现

抽象是计算机科学中最关键的概念之一，具有一些最强大的含义。从简单的角度来看，抽象是将某些东西应用于多种不同情况的能力。例如，如果您创建了一种在工厂中根据苹果大小成功分类苹果的方法，则可以将解决方案抽象为也以相同的方式对橙子或桃子进行分类。因此，通过抽象，一个非常强大的解决方案能够从根本上影响世界的多个部分。

虽然大型语言模型在给定文本作为输入时在推理方面非常出色，但最近我们已经能够抽象它们的输入，以便它们可以对图像和声音进行推理。

下面的博客文章介绍了 Apple 的 MM1 论文中的架构消融及其在构建多模态大型语言模型（MLLM）时的研究结果。

抽象 LLM 输入

大型语言模型背后的架构可以追溯到 2017 年的论文“Attention is All You Need”，其中引入了 Transformer 架构。

这篇论文展示了如何将人类语言转换为符号，然后由神经网络处理（在那篇论文中，处理成不同的语言）。

从图中可以看出，我们在早期进行了一次转换，我们将输入转换为标记（嵌入部分）。但是，没有固有的原因可以将文本数据映射到令牌。因此，该领域开始尝试将其他类型的数据映射到令牌。

MM1 架构基础

Apple 的模型有 3 个关键组件：视觉转换器（ViT）图像编码器、视觉语言连接器和大型语言模型。假设您已经对 LLM 是什么以及它是如何工作的有了很好的了解，那么让我们深入了解图像编码器和 VL 连接器。

图像编码器和视觉连接器

虽然从抽象的角度来看，我们可以将文本和图像想象为不同类型的输入，但要完成这项工作，我们需要接受我们可能必须以不同的方式对待它们才能将它们转换为标记形式。目前，我们有 2 个不同的系统可以帮助我们将图像转换为 LLM 可以推理的标记：图像编码器和连接器。

首先，图像编码器负责获取我们的图像并将其转换为我们的转换器模型可以理解的标记表示。

其次，连接器是从视觉编码器获取数据并将其转换为直接传递到大型语言模型的数据的部分。鉴于图像编码器返回令牌，您可能想知道为什么我们需要连接器。这个想法似乎是图像编码器在其标记中提供了太多信息，因此为了在优化推理的同时降低成本，我们希望对所传递的内容有选择性。

下图显示了我们在这里使用的数据流。

消融

机器学习中的消融研究围绕着删除和修改模型的某些部分展开，以了解它们对整体性能的贡献。Apple 的研究集中在训练图像编码器的不同方法、用于 VL 连接器的不同投影仪以及不同的预训练数据上。

让我们深入了解主要发现。

让我们来看看上面的主要部分并解释它们是什么。

CLIP 代表对比语言图像预训练，旨在通过为被视为文本的事物提供名称来帮助模型学习视觉概念。如下图所示，这会将图像与文本编码配对，以便模型最终将视觉标记（在下图中表示为 I，与文本标记 T）连接起来。这种方法称为对比训练。

AIM代表自回归图像模型，它通过重建损失优化算法进行训练。这里的目标是查看转换器是否可以重新创建（重建）它所给定的图像。

这里的图像分辨率是指馈入变压器的像素数。例如，378 x 378 的图像分辨率意味着我们将传入该大小的矩阵，然后将其转换为嵌入，然后对模型进行训练。训练数据在（DFN-2B）、（DFN-5B）、（DFN-5B + VeCap）和（ImageText-400M）之间拆分。

作者发现图像分辨率最为重要，其次是模型大小，然后是训练数据内容。具体来说，他们发现图像分辨率越好，模型在零拍摄和少拍摄提示方面的表现就越好。由于需要更多的计算来训练和运行具有更高图像分辨率要求的模型，这表明对于 Vision Transformer 来说，计算仍然是最重要的。

VL 连接烧蚀

对于 VL 连接器，他们使用 64 或 144 个令牌对图像进行了测试，对图像分辨率使用了 224、336 和 378 进行了测试，并在几种架构之间进行了选择。我将简要介绍下面的架构。

平均池化顾名思义，取所有代币的平均值，然后对这个平均值进行线性投影，使网格为 8x8 或 12x12。

注意力池假设图像标记应被视为来自与文本标记根本不同的总体集的样本。在这里，我们调整每个图像的输入数量，在论文中称为 k 个可学习查询。研究人员只考虑了 64 或 144 的 k。

卷积映射是 Honeybee 的一种方法，它使用 ResNet 动态决定从图像传递到 LLM 的标记数量。这在 C-Abstractor 模块中实现了。

这一发现表明，我们要么还没有找到将图像编码器连接到LLM的更好方法，要么这个领域根本不是优秀模型能够脱颖而出的地方。

预训练数据消融

在这里，作者使用了 4 种不同类型的数据：带字幕的图像、合成的带字幕的图像、交错的图像-文本数据和纯文本数据。他们找到了 4 节课，每节课都有一个图表来总结性能变化。

首先，交错数据有助于提高少镜头和纯文本性能，而字幕数据有助于实现零镜头性能。研究人员改变了他们所做的交错程度，下图显示了结果。正如你所看到的，在用交错数据训练的模型上，少样本提示的表现明显优于用全有或全无训练的模型。

其次，纯文本数据有助于进行少量推理。在此上下文中，纯文本意味着训练数据包括图像示例和纯文本示例。这样做是为了确保模型理解人类语言和图像。将仅字幕与带文本的标题进行比较显示，除了 0-shot 推理之外，其他所有推理都有明显的改进，但是，除了 TextCore 测试之外，interleaved-only 的表现都优于交错加文本。

第三，如果你在图像和文本之间得到正确的混合，你可以获得非常强大的性能。上图显示了交错 + 标题数据与纯文本数据的不同比率。由于目标是拥有一个多模态模型，因此如果您没有任何图像数据，他们从未测试过性能。这里的作者指出，91/9 的比率产生了最一致的良好结果。

第四，合成数据有助于小样本学习。VeCap 代表 Visual-enriched Caption，这是一种创建标题的方法，以便它们能够确保描述图像的关键视觉部分。相反，想象一个标题，它可能会解释照片背后的含义，但不能解释照片中的任何元素。如果您的数据抓取工具发现替代文本数据较差的图像，您通常会这样做。

【声明】内容源于网络

七元宇宙

AI、Web3、Meta聚合型精选内容分享。以前沿视角，探索科技未来；让每一个人，都走在时代的前沿

内容 3217

粉丝 0

七元宇宙 AI、Web3、Meta聚合型精选内容分享。以前沿视角，探索科技未来；让每一个人，都走在时代的前沿

总阅读38

粉丝0

内容3.2k