迷你多模态模型 | Vary-toy : 小语言模型结合强化视觉Vocabulary ，1080Ti 可跑！

极市平台

2024-01-28

↑ 点击蓝字关注极市平台

作者丨雨沐林风

来源丨ALCV与前沿

编辑丨极市平台

极市导读

本报告提出了Vary-toy，一个小型的Vary和Qwen-1.8B作为基础的“大型”语言模型。在Vary-toy中，引入了一种改进的视觉词汇表，使模型不仅具有Vary的所有特征，而且具有更多的通用性。 >>加入极市CV技术交流群，走在计算机视觉的最前沿

文章地址：https://arxiv.org/abs/2401.12503

项目地址：https://github.com/Ucas-HaoranWei/Vary-toy?tab=readme-ov-file

00 | 导言

2023年玩大视觉语言模型(LVLMs)是人工智能界的潮流。然而，流行的LVLMs的参数数量相对较多(超过7B)，这使得它很难在消费级gpu上进行训练和部署，这使得许多资源有限的研究人员望而却步。

本报告提出了Vary-toy，一个小型的Vary和Qwen-1.8B作为基础的“大型”语言模型。在Vary-toy中，引入了一种改进的视觉词汇表，使模型不仅具有Vary的所有特征，而且具有更多的通用性。具体来说，在生成视觉词汇的过程中，将自然图像的负样本替换为物体检测驱动的正样本数据，更充分地利用词汇网络的容量，使其能够高效地编码与自然物体对应的视觉信息。

在实验中，Vary-toy在DocVQA上的准确率为65.6%，在ChartQA上的准确率为59.1%，在RefCOCO上的准确率为88.1%，在MMVet上的准确率为29%。

01 | 相关工作

在过去的几年中，大型语言模型(llm)，如GPT家族，LLaMA家族，OPT和GLM家族在NLP任务中获得了显着提高的性能。借助llm的语言推理能力，Flamingo、BLIP2、LLaVA、Vary等视觉语言模型(vlm)在图像标题、VQA、图像生成、视觉基础、文档OCR等各种计算机视觉任务中取得了令人瞩目的成绩。这些模型不仅可以遵循人类的指令，而且具有出色的少射甚至zero-shot学习能力，从而推动人工智能社区向人工通用智能(AGI)的发展。

然而，大多数流行的开源vlm参数较多，大小如7B(如Qwen-VL和mPlUG-Owl)或13B，这在一定程度上阻碍了资源有限的研究人员的参与，并对在家用计算机等资源受限环境中实现vlm提出了挑战。

最近，人们对小型语言模型的兴趣和发展越来越大，例如用于NLP任务的pi -2 (2.7B)和Qwen-1.8B，以及用于视觉语言任务的Gemini-nano (1.8B/3.25B) ， MobileVLM (1.4B/2.7B)。Vary-toy将是一个开源的小型模型，它拥有最流行的lvlm的特性，并在细粒度感知任务中展示了非凡的潜力。

02 | 方法

Vary-toy的细节下图2所示，实现模型的过程中主要包含两个部分：

1)如何基于Vary-tiny+管道生成更实用的视觉词汇表。

2)如何利用新的视觉词汇，在不损害原有模型特征的前提下，使1.8B Vary-toy聚集新的特征。

1.1 Generating A Reinforced Vision Vocabulary Upon Vary-tiny+

Vary-tiny是一个微型视觉语言模型，用于为Vary生成特定的pdf解析视觉词汇表。视觉词汇网络由SAM-base主体和用于重塑输出的成对卷积组成，约有80M个参数。实验证明，使用SAM初始化方法获得文本深度感知是有效的。然而，vanilla Vary的词汇生成过程存在着遗忘SAM原始自然物体感知能力的风险。此外，作者还认为只将密集文本的视觉知识写入80M网络是一种浪费。因此，作者在Vary-tiny+管道上生成了一个新的更合理的视觉词汇表。

1.1.1 数据引擎

PDF数据。在这个阶段，准备了大约4M的PDF图像-文本对。继Vary之后，使用PDF处理包来提取每个PDF页面的文本，实验发现许多Python包都可以实现(例如pdfminer、pdfplumber和fitz)。每个页面将被保存为JPEG图像，并与相应的文本形成图像-文本对。这样就得到了英语和中文各2M个样品。使用这个句子:“提供这个图像的OCR结果。“作为中英文任务的提示。pdf文件主要来自arXiv、CC-MAIN-2021-31-PDF-UNTRUNCATED和电子书。图3显示了PDF图像对的一个示例

对于PDF图像-文本对，只有一个提示，而对于对象检测任务，使用如图右半部分所示的两种类型的提示，因为有些图像可能有太多的对象，超过了插值后OPT125M的最大令牌长度(4096)。

目标检测数据。为了充分利用视觉词汇网络的能力，从SAM初始化中获得自然的图像感知能力，作者在视觉词汇生成过程中引入了目标检测数据。从两个大型开源数据集中收集样本，即Object365和OpenImage。由于在OPT的文本标记器中坐标(数字文本)编码的效率较低，对于对象过多的图像，ground truth中的标记数量可能会超过OPT- 125m支持的最大标记长度(尽管我们将其插值为4096)。因此，作者将注释重新组织为两个任务:1)对象检测:如果图像中不超过30个对象框，将允许Vary-tiny+检测所有对象，并提示:“检测此图像中的所有对象”。2) REC:如果对象盒数量超过30，将使用提示模板将此图像视为REC任务:“检测class1, class2，…在这张图片中”。选择的类是随机的，因此一个图像可以多次使用。通过上述方式，获得了大约3M的检测数据。图3中显示了一些示例。

1.1.2 输入格式

与Vary-tiny的单一输入输出形式不同，Vary-tiny+需要不同的提示来引导模型输出正确的结果，因此需要多种输入格式来适应相应的任务。为了简单起见，作者使用Vicuna v1的模板来构建对话格式的所有ground truth，如

USER: <img>"<image>"</img> "texts input" ASSITANT: "texts output" </s>。作者添加了“<img>”和“</img>”作为OPT-125M文本标记器的特殊标记，实验发现它可以很好地适应Vicuna模板。对于视觉输入分支，不使用任何增强，只将图像调整为固定分辨率，即1024×1024。

1.2 低成本的Vary-Toy

1.2.1 架构

如图2所示，遵循Vary管道来设计Vary-toy的主体，但是有一些小的区别。当输入形状为H×W的图像时，新的视觉词汇分支将直接将图像大小调整为1024×1024，而CLIP分支通过中心裁剪获得224×224图像。两个分支都输出256个令牌，通道为1024。Qwen-1.8B输入通道的维数也是2048，所以最简单的方法是直接将两个分支中的图像标记连接起来作为语言模型的输入图像标记。在代码实现方面，为了保持与Vary结构的一致性，仍然在视觉词汇网络后面添加了输入嵌入层。

1.2.2 数据信息

从直观上看，1.8B模型对数据量和数据比例的敏感性要高于7B及以上模型，因此作者在var -toy的数据处理方面投入了更多的精力。

预训练和SFT数据。对于Vary-toy，预训练阶段实际上是一个多任务训练阶段，在这个阶段准备了大量不同格式的图像-文本对。如表1所示，该阶段主要关注的数据共有5类，分别是弱标注图像标题、PDF密集OCR、目标检测、纯文本对话和VQA。具体来说，对于自然图像，在Laion-COCO数据集中对4M图像-文本对进行采样，也使用了LLaVA中提出的BLIP-558K数据。对于PDF图像-文本对，准备了两种类型的数据。一个是纯密集文本OCR，另一个是将PDF图像转换为标记格式的任务。前一种数据是从Vary-tiny+中使用的PDF数据中随机采样的，最后一种数据是通过LaTeX渲染获得的。

与vanilla Vary相比，减少了PDF数据的比例，以保持通用功能。对于检测数据，从COCO数据集中收集图像。作者在纯对象检测任务中采样了50K个对象较少的图像，并在REC任务中使用了RefCOCO的所有训练数据。作者将每个方框的坐标归一化，然后将它们放大1000倍。为了防止LLM的语言能力退化，还引入了纯NLP会话数据，包括ShareGPT、Baize和Alpaca。对于最后一个下游VQA任务，选择了两个挑战数据集(DocVQA和ChartQA)来监控Vary-toy对人工数据的文本感知和推理性能。通过GPT3.5，每个任务至少有10个提示，表1显示了其中的一个示例。

在SFT阶段，只使用LLaVA-80K对模型进行指令调优。LLaVA-80K是由GPT4制作的具有各种类型图像详细描述和提示的数据集