大数跨境
0
0

多边形全能战士Monkey:华科大提出的高分辨率多模态视觉-语言大模型,刷新多个SOTA

多边形全能战士Monkey:华科大提出的高分辨率多模态视觉-语言大模型,刷新多个SOTA 极市平台
2023-12-12
0
导读:↑ 点击蓝字 关注极市平台作者丨雨沐林风来源丨AICV与前沿编辑丨极市平台极市导读 在 18 个数据集上进行
↑ 点击蓝字 关注极市平台
作者丨雨沐林风
来源丨AICV与前沿
编辑丨极市平台

极市导读

 

在 18 个数据集上进行的实验进一步表明,Monkey 在图像字幕和各种视觉问答格式等许多任务上都超越了现有的 LMM。 >>加入极市CV技术交流群,走在计算机视觉的最前沿

文章地址:https://arxiv.org/pdf/2311.06607.pdf

项目地址:https://github.com/Yuliang-Liu/Monkey

00 | 导言

大型多模态模型(lmm)在视觉语言任务中显示出前景,但在高分辨率输入和详细场景理解方面存在困难。为了解决这些挑战,本文引入了Monkey来增强LMM的功能。

  • 首先,Monkey通过将输入图像分成均匀的小块来处理图像,每个小块的大小与训练良好的视觉编码器的原始训练中使用的大小(例如448×448)相匹配。为每个patch配备了单独的适配器,Monkey可以处理高达1344×896像素的更高分辨率,从而能够详细捕获复杂的视觉信息。

  • 其次,采用多层次的描述生成方法,丰富了场景-对象关联的上下文。这个由两部分组成的策略确保从生成的数据中更有效地学习:更高的分辨率允许更详细地捕获视觉效果,这反过来提高了全面描述的有效性。

大量的消融实验结果验证了Monkey设计的有效性。此外,在18个数据集上的实验进一步证明Monkey模型在图像字幕、通用视觉问答、以场景文本为中心的视觉问答和面向文档的视觉问答等任务中表现出非常有竞争力的性能。特别是在以密集文本问答为重点的定性测试中,与GPT4V相比,Monkey表现出了令人鼓舞的结果。

01 | 方法

Monkey架构如上图。首先,输入图像被分割成小块。然后,这些patch通过配备不同适配器的共享ViT进行处理。随后,使用共享重采样器和大型语言模型(LLM)处理局部和全局特征以及问题,从而生成所需的答案。

1)增强输入分辨率

输入分辨率对于准确解释文本和详细图像特征至关重要。先前的研究表明,从小的分辨率开始,通过系统学习逐步推进到大的分辨率是有效的。然而,这种方法对资源的要求很高,通常需要对大规模数据进行全面的预训练(如QwenVL所示,它支持高达448×448的分辨率)。为了解决这些问题并有效地提高解决方案,Monkey引入了一种简单但更有效的技术。

给定图像 ,使用滑动窗口 (其中 表示原始LMM的支持分辨率)将图像划分为更小的局部部分。并且在每个共享编码器中利用LoRA来处理图像不同部分的各种视觉元素。这种LoRA的集成是为了帮助编码器有效地识别和吸收每个图像区域的细节敏感特征,从而增强对空间和上下文关系的理解,而不会大幅增加参数或计算需求。

为了保留输入图像的整体结构信息,将原始图像的尺寸调整为 ,保持其作为全局图像。随后,通过视觉编码器和重采样器同时处理单个patch和全局图像。受Flamingo启发的视觉重采样器(visual resampler)是一种主要完成两个功能的机制:汇总视觉信息和在语言特征空间中获得更高的语义视觉表示。它通过利用交叉注意力模块来实现这一点。该模块使用可训练向量(嵌入)作为查询向量,以及来自视觉编码器的图像特征作为交叉注意操作的关键

2)多层次描述生成

之前的模型如LLaVA和Qwen-VL使用大型数据集如LAION、COYO和CC3M进行初始训练。然而,这些数据集通常提供的图像-文本对过于简单(例如,一个简短的句子来描述一个复杂的图像),缺乏详细的图像。因此,即使这些模型使用高分辨率图像进行训练,它们也很难准确地将视觉特征与基本字幕联系起来。这种局限性影响了模型有效地将视觉处理与语言理解结合起来。

为了弥补这一差距,开发了一种自动生成多层次描述的新方法。该技术旨在通过有效地混合来自各种生成器的输出来创建丰富和高质量的标题数据。作者利用了几个先进系统的组合,每个系统都为这个过程带来了自己的优势:BLIP2,它提供了对图像和文本之间关系的深刻理解;PPOCR,在光学字符识别方面表现优异;GRIT,专门用于详细的图像-文本匹配;SAM,专注于语义对齐;ChatGPT,以其在语境语言生成方面的卓越能力而闻名。

如图3所示,图像描述过程从BLIP2开始,

  • BLIP2使用Q-former与视觉编码器和LLM紧密集成,创建整体字幕,同时保留原始的CC3M注释。

  • 接下来,GRIT(区域到文本模型)生成特定区域、对象及其特征的详细描述。

  • PPOCR从图像和SAM中提取文本,并识别物体及其部分。这些物体随后由BLIP2单独描述。

  • 然而,为了应对这些工具的潜在不准确性,特别是在zero-shot设置中,作者发现有必要进一步使用BLIP2来检查图像区域,物体及其描述之间的一致性,过滤掉低得分的匹配。

  • 最后,所有数据,包括全局标题、本地化描述、文本提取和带有空间坐标的对象细节,都被输入ChatGPT API进行微调,使ChatGPT能够生成准确且上下文丰富的图像描述。

通过合并这些系统的独特功能,本文方法实现了分层和全面的标题创建风格。它捕捉了广泛的视觉和文字的细微差别,导致字幕不仅精心制作,而且上下文多样。

3)多任务训练

本文目标是训练一个既具有成本效益又能够理解不同任务的不同类型图像的模型。作者整合各种数据集之后,对所有任务采用统一的指令,提高了模型的学习能力和训练效率。

本文关注的任务包括创建图像说明、回答基于图像的问题,以及其他需要模型同时处理文本和图像的活动。对于字幕,作者用“Generate the title in English:”来指导基本的字幕,用“Generate the detailed title in English:”来指导更复杂的字幕。当涉及到回答有关图像的问题时,作者使用直接的格式:“{question} Answer: {Answer}”。

在训练过程中,作者使用各种针对特定任务定制的公共数据集。对于图像字幕,既包括自己的详细字幕,也包括已建立的数据集,如COCO字幕和TextCaps。对于一般的可视化问答(VQA),使用VQAV2、OKVQA、GQA、ScienceQA和VizWiz等数据集。对于以文本为中心的VQA任务,选择TextVQA、OCRVQA和AI2D ;而对于文档相关的VQA,使用DocVQA、ChartQA、InfoVQA、DeepForm、Kleister Charity (KLC)、WikiTableQuestions (WTQ)、TableFact和VisualMRC等数据集。为了保证训练的平衡性,对每个任务的图像数量进行控制,详见表1。编译的数据集有大约144万个示例,旨在有效地训练模型理解和执行各种指令

02 | 实验结果

图像字幕对于将视觉内容与自然语言的理解联系起来至关重要。在本文的研究中,选择Flickr30K[和TextCaps作为测试图像字幕任务的基准。TextCaps挑战模型有效地解释和推理图像中的文本。在表2中展示了Monkey在Flickr30K和TextCaps上的性能,结果表明Monkey在这些数据集上表现出增强的性能。

Monkey在VQAV2、OKVQA、ScienceQA和VizViz上表现出了显著的熟练度,平均比最接近的竞争方法高出1.62%。这些结果突出了方法的有效性,强调了它使用高输入分辨率和详细的数据。

文本信息通常存在于现实世界的场景中,这使得回答关于图像文本的问题的能力成为问答任务的一个关键方面。为了进行评估,使用了四个数据集:TextVQA、AI2D、STVQA和ESTVQA。结果如表3所示,表明Monkey在这些数据集上的性能领先,平均比最接近的竞争对手高出4.35%。根据作者观察,这种增强的性能主要归功于图像分辨率的提高,它将更小的文本和更精细的细节带入更清晰的视图。

Monkey在大多数面向文档的VQA任务中都超过了Qwen-VL,平均显著提高了9.77%。文件的高分辨率揭示了更复杂的细节和更密集的信息。Monkey处理大分辨率输入的能力增强了它的空间感知能力,从而提高了它对文本、图表、信息图表和表单等各种文档元素的识别和理解能力。

针对模型结构和输入分辨率的实验表明,提高分辨率能提高模型性能(r3-r9),四个LoRA能够帮助模型获得图像中不同部分的独特特征(r7 vs. r9),并帮助模型建立对空间和上下文关系的理解。进一步提高输入分辨率能够提高模型在文档等更高分辨率的图像上的性能(r5,r6)。同时,相比与直接插值扩大模型输入分辨率的方法相比(r1,r2 vs. r9),本文的方法在时间和性能上更具优势。

公众号后台回复“数据集”获取100+深度学习各方向资源整理

极市干货

技术专栏:多模态大模型超详细解读专栏搞懂Tranformer系列ICCV2023论文解读极市直播
极视角动态欢迎高校师生申报极视角2023年教育部产学合作协同育人项目新视野+智慧脑,「无人机+AI」成为道路智能巡检好帮手!
技术综述:四万字详解Neural ODE:用神经网络去刻画非离散的状态变化transformer的细节到底是怎么样的?Transformer 连环18问!

点击阅读原文进入CV社区

收获更多技术干货

【声明】内容源于网络
0
0
极市平台
为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
内容 8155
粉丝 0
极市平台 为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
总阅读919
粉丝0
内容8.2k