OpenVision2颠覆CLIP范式 | 纯生成式字幕训练，1.5倍速1.8倍省内存，十亿参数轻松训



OpenVision2颠覆CLIP范式 | 纯生成式字幕训练，1.5倍速1.8倍省内存，十亿参数轻松训

极市平台

2025-09-30

↑ 点击蓝字关注极市平台

作者丨小书童

来源丨集智书童

编辑丨极市平台

极市导读

本文介绍了 OpenVision 2：一种新型的多模态视觉编码器训练方法。通过移除传统的对比学习损失，仅使用字幕生成作为训练信号，OpenVision 2 显著提高了训练效率，降低了内存消耗，并成功扩展到超过 10 亿参数的模型规模，同时在多模态基准测试中保持了与原始 OpenVision 相当甚至更好的性能。 >>加入极市CV技术交流群，走在计算机视觉的最前沿

精简阅读版本

本文主要解决了什么问题

原始OpenVision模型训练效率低下的问题，包括训练时间长、内存消耗大。
多模态基础模型中视觉编码器对不完全开放解决方案（如CLIP、SigLIP）的依赖问题。
传统观点认为CLIP风格的对比学习对于构建可扩展的通用视觉编码器是必要的，但这种方法计算开销大的问题。

本文的核心创新是什么

提出OpenVision 2架构，移除文本编码器和对比损失，仅保留字幕损失作为纯生成式训练信号。
引入视觉token masking策略，在预训练期间随机丢弃约三分之二的视觉token，减少计算负载并增强局部语义表示。
使用高质量合成字幕（ReCap-DataComp-1B v2）作为唯一监督信号，简化训练流程并提高数据质量。

结果相较于以前的方法有哪些提升

训练效率显著提升：ViT-L/14模型训练时间从83小时减少到57小时（约1.5倍），内存使用从24.5GB减少到13.8GB（约1.8倍）。
批量处理能力增强：最大批量大小从2k增长到8k，支持更大规模训练。
模型可扩展性提高：成功训练超过10亿参数的视觉编码器，在保持性能的同时实现更大规模。
多模态基准性能相当或更好：在TextVQA、SQA、SEED-Bench等任务上与原始OpenVision性能相当，在OCR等任务上略有提升。

局限性总结

纯生成式训练可能无法完全替代对比学习在某些特定任务上的优势，尽管实验结果显示性能相当。
视觉token masking比例需要精细调整（25-35%为最佳），不当的masking比例可能影响性能。
依赖高质量合成字幕，若字幕生成质量不佳可能影响模型性能，增加了对字幕生成模型的依赖。
虽然训练效率提升，但生成式预训练的计算成本仍然较高，尤其是在大规模数据集上。

导读

本文对OpenVision的架构和损失设计进行了简化，以提高其训练效率。继承先前的视觉语言预训练工作CapPa和AIMv2，以及像LLaVA这样的现代多模态设计，作者的改动非常直接：作者移除了文本编码器——因此也移除了对比损失——仅保留字幕损失作为纯粹的生成式训练信号。作者将这个新版本命名为OpenVision 2。初步结果很有希望：尽管进行了这种简化，OpenVision 2在广泛的多模态基准测试上仍然能够与原始模型的性能相媲美，同时大幅减少了训练时间和内存消耗。例如，使用ViT-L/14，它节省了约1.5倍的训练时间（即从83小时减少到57小时），内存使用量减少了约1.8倍（即从24.5GB减少到13.8GB；或者等效地，允许最大批量大小从增长到）。

这种卓越的训练效率还使作者能够扩展到远超OpenVision中使用的最大视觉编码器的规模，达到超过10亿个参数。作者坚信，这种轻量级、纯生成式的范式对于多模态基础模型中未来视觉编码器的发展具有强大的吸引力。

01 引言

多模态基础模型中的视觉模块长期以来一直依赖于不完全开放的解决方案，如OpenAI的CLIP或Google的SigLIP 。为了缓解这一限制，OpenVision提供了一个完全开放的替代方案：通过完全基于公共数据集和代码库构建，OpenVision提供了一系列具有高度竞争力的视觉编码器，参数范围从5.9M到632.1M，用于构建真正开放的多模态基础模型。

尽管其开放性，原始的OpenVision方案比原始CLIP流程要重得多。首先，其对比对数量翻倍：每张图像与两个标题配对——一个是网络爬取的，一个是合成生成的——而不是单个标题。其次，添加了一个单独的生成损失（因此需要一个额外的文本解码器），用于指导模型在给定图像和网络标题的情况下预测合成标题。尽管通过采用CLIPA风格的训练（即在低分辨率图像上预训练，然后进行短时间的高分辨率微调）在很大程度上隐藏了这些额外的开销，但减少OpenVision的整体计算足迹对于更广泛的获取仍然至关重要，特别是对于计算资源有限的研究行人，以及在数据大小、训练周期和模型容量方面的进一步扩展。

本文在OpenVision的基础上，研究了一种更简单且更高效的训练方法。具体而言，借鉴先前的视觉语言预训练工作CapPa 和AIMv2 ，以及像LLaVA 这样的现代多模态设计，作者采用了一种极简主义设计原则：

关键的是，这一变化也消除了来自对比图像-文本对的相关训练信号。因此，训练框架现在仅由两部分组成——一个图像编码器和一个文本解码器——并且仅通过标题损失以生成方式学习视觉表征，有效地将原始的多分支流程简化为轻量级的双模块架构，并显著减少计算开销。

作者将这个新版本命名为OpenVision 2。初步实验表明其潜力相当可观。在一系列代表性的多模态基准测试中，OpenVision 2有效地反映了原始OpenVision的性能。例如，在使用ViT-L/14 Backbone 的LLaVA-Next 框架下，两个版本在TextVQA （68.9 vs. 68.3）、SQA （75.2 vs. 75.4）和SEED-Bench （73.4 vs. 73.3）等任务上的得分几乎相同，仅在OCR （537 vs. 547）等任务上有微小差异。更值得注意的是，效率成为关键区别点：在ViTL上，OpenVision 2将预训练时间从83小时缩短到57小时，同时将每台设备的计算内存从24.5 GB减少到13.8 GB；在使用更大的SoViT-400M Backbone 时，这些收益更加显著，训练时间从241小时减少到121小时，每台设备的内存需求从减少到。重要的是，这种增强的训练效率使得将视觉编码器扩展到超过10亿参数成为可能——这一规模在原始OpenVision设置之前不太实用。这些发现总体表明，仅基于字幕生成的目标不仅可以保持先进性能，还能显著降低计算成本并实现更大的可扩展性。

作者希望这些发现能够促使研究社区认真重新考虑长期以来的普遍观点，即CLIP风格的对比学习对于构建可扩展的通用视觉编码器是必不可少的——这一观点被先前的研究如CapPa和AIMv2多年来反复论证。具体而言，在OpenVision 2中，作者证明了一个纯生成式的、仅基于字幕的目标可以在多模态性能上与对比方法相媲美，同时显著降低计算和内存需求。为了促进更深入和广泛的探索，作者发布了OpenVision 2的完整训练套件和预训练预训练权重。作者邀请研究行人基于这些资源进行构建，并进一步探索视觉编码器的生成式预训练在多模态学习中的潜力。

02 方法

2.1. OpenVision: 其技术细节综述

OpenVision为研究社区提供了一套完全开放的套件，用于训练先进的视觉编码器以构建多模态基础模型。具体而言，与原始的CLIP设置相比，OpenVision整合了来自近期文献的三个关键变化：

效率 (CLIPA) 从头开始训练CLIP模型的成本高得令人望而却步。CLIPA通过在低分辨率图像上进行预训练，并在全分辨率下仅进行短暂的微调阶段来缓解这一成本，实现了高达的速度提升。OpenVision采用这种两阶段课程来加速训练。
数据质量 (Recap) 网络爬取的标题通常嘈杂且不完整。Recap 通过用模型生成的标题替换它们来提高标签质量。具体来说，一个由 LLaMA-3 驱动的 LLaVA 模型重新标注了整个 DataComp-1B 集合；这个高质量的合成数据集作为 OpenVision 的训练语料库。
优化 (CLIPS) 为了更好地利用合成标题，CLIPS引入了两个额外目标：(i) 一种双重对比损失，它将每张图像与网络爬取的标题和生成的标题进行配对，以及(ii) 一种标题损失，它要求模型在给定图像及其网络标题的情况下预测合成标题。OpenVision集成了这两种损失以增强训练。

结合这三种要素使OpenVision能够完全使用公共数据和合理的计算资源来训练先进的、CLIP风格的视觉编码器。如所示，所得到的模型在构建多模态基础模型方面可以与OpenAI的CLIP和Google的SigLIP等专有模型相媲美。

2.2. OpenVision 2: 有哪些变化？

尽管额外使用高质量合成字幕提升了整体多模态性能，但它也增加了大量的计算开销：(i) text encoder现在必须为双重对比目标处理每张图像的两个字幕，并且(ii) 需要一个额外的text decoder以自回归方式预测合成字幕。总的来说，这两个组件在训练过程中显著增加了FLOPs和GPU memory。

OpenVision 2通过丢弃文本编码器来消除这个计算 Bottleneck ，同时也丢弃了整个图像-文本对比损失。因此，训练循环简化为两个步骤（图1的左图）：

图像由视觉编码器处理，生成一系列视觉 Token 。
这些 Token 被直接传递给文本解码器，该解码器预测配对的合成标题。

通过这一视角来看，OpenVision 2 成为一个纯粹的生成式预训练 Pipeline ，紧密地反映了在下游多模态微调（例如 LLaVA）过程中使用的架构。这种架构对齐消除了预训练和下游微调之间的目标不匹配，可能促进跨阶段更平滑的知识转移。

在此基础上，作者引入了一个额外的效率调整：在预训练期间，大约三分之二的视觉tokens在被输入到文本解码器之前被随机 Mask 。正如作者的实证研究结果所证实，剩余的三分之一为字幕生成提供了足够的条件信息，同时进一步减少了文本解码器的计算负载。

与CapPa的差异 OpenVision 2采纳了CapPa首创的仅标题理念，但在以下四个方面有所分化和改进：

更高质量的标题。CapPa是在短的、通常有噪声的网络标题上训练的。作者转而采用ReCap-DataComp-1B——一个由Llama-3驱动的、完全重新标注的DataComp-1B版本——并通过增强的标注策略1进一步优化它。由此产生的标题更长、更加基于事实，因此更适合生成式监督（这一点在表6中得到了实证确认）。

融合简化

CapPa使用cross-attention融合模态。作者遵循最近的多模态实践（例如LLaVA中的做法），用文本解码器中视觉token的简单拼接来替代这种方法。作者在训练过程中额外丢弃随机子集的视觉token，这既正则化了编码器，又降低了解码成本。

规模与评估范围

与CapPa相比，作者进一步将视觉编码器规模扩大到10.1亿参数，在图像-标题对上进行训练。此外，作者不仅关注图像分类和简单的检索/问答，作者的视觉编码器还在更先进和复杂的多模态基准（如MME 和ChartQA ）上进行了评估。

解码策略。

虽然CapPa主张使用大量并行预测和轻度自回归预测的混合方式，但作者在预训练中仅使用其原始格式，即仅使用自回归预测。

与AIMv2的差异作者的OpenVision 2的整体设计更封闭于更新近的AIMv2，但仍在以下方面有所不同：

训练信号。AIMv2通过一个多模态自回归解码器来监督视觉编码器，该解码器同时（i）通过像素级回归重建图像块，以及（ii）生成文本 Token ，融合了图像级和文本级目标。相比之下，OpenVision 2遵循CapPa的仅字幕理念：文本生成是唯一的学习信号，并且不引入图像重建损失。

Token-masking方案

与AIMv2相比，OpenVision 2在将视觉token传递给文本解码器之前，随机 Mask 大约三分之二的视觉token。正如作者的实证结果所证实，这种设计提高了训练效率和多模态性能。

数据组成

AIMv2在人类和合成标题的混合数据上进行训练（ real， synthetic）。作者的语料库完全是合成的，并通过ReCap－DataComp-1B流程生成，产生了更丰富、更一致的描述，这些描述更好地与纯生成目标保持一致。

视觉编码器架构

AIMv2采用了prefixViT ，其中注意力 Mask 允许前缀 Token 进行双向关注，而其余 Token 则以自回归方式进行建模。相比之下，OpenVision 2仅使用标准的ViT主干网络，没有此类修改，保持编码器的简洁和高效。

03 结果

3.1. 多模态基准性能

继OpenVision之后，作者在LLaVA-1.5 和Open-LLaVA-Next 两个框架下，评估了OpenVision 2在一系列多模态下游任务上的有效性。具体而言，作者报告了在常用多模态基准测试MME 、GQA 、ChartQA 、POPE 、TextVQA 、OCR 、SEED 和SQA 上的结果。结果总结在表1和表2中。

LLaVA-1.5 结果如表1所示，OpenVision 2 实现了与OpenVision模型相当或更好的性能，同时在训练时间和内存方面显著更高效（见第3.2节）。例如，在ViT-L/14分辨率-224设置下，OpenVision 2 匹配或略微超过OpenVision 57.7 on TextVQA, 13.7 vs. 13.9 on ChartQA, and 315 on OCR-Bench)，尽管将训练成本降低了。同样的趋势也适用于更大规模（例如SoViT400M/14、H/14），其中OpenVision 2保持了OpenVision的强大性能，同时提供了明显更好的效率。这表明作者的以效率为导向的设计不会牺牲准确性，即使在OCR相关任务等更具挑战性的基准测试中也是如此。

Open-LLaVA-Next结果在Open-LLaVA-Next框架下也观察到了类似的模式（表2）。OpenVision 2始终提供与原始OpenVision相当或更好的结果，同时保留了其巨大的效率优势。例如，在ViT-L/14 resolution336设置下，OpenVision 2在TextVQA上达到68.9，在OCR-Bench上达到537，在MME-Perception上达到1585，与OpenVision（分别为68.3、547和1520）相当或略有提升。当扩展到SoViT400M/14和H/14时，OpenVision 2进一步强化了这一趋势，达到了OpenVision设定的强 Baseline 水平，在某些情况下甚至超越了它们（例如，在使用SoViT- 的OCRBench上比OpenVision高出 +19 ，以及在使用H／14－448时在TextVQA、OCR-Bench和POPE上取得了新的最佳结果）。这些结果证实，OpenVision 2的效率提升并未牺牲下游性能，有时甚至增强了下游性能。

总体趋势。这些结果展示了四个关键要点：(i) OpenVision 2在两种多模态框架上都表现出良好的泛化能力，相比之前的CLIP模型显示出持续的改进。(ii) 在OCR密集型基准测试中，这种优势尤为明显，验证了作者合成的字幕生成和token masking策略对于增强细粒度文本识别的有效性。(iii) 改进效果随着模型大小和输入分辨率的增加而平稳扩展，证实了OpenVision 2在大规模设置下保持了效率和鲁棒性。(iv) 与OpenVision的第一个版本相比，作者的新设计实现了这些提升，同时大幅减少了训练时间和内存占用（见第3.2节）。

3.2. 训练效率和可扩展性

OpenVision 2的一个关键优势在于其卓越的训练效率和可扩展性。所有实验均在Google Cloud TPUs上进行，其中训练时间在v4-512 pods上测量，内存使用量在v4-64 pods上测量。作者在表3、表4和表5中报告了不同模型规模下的实际训练时间、计算成本和内存占用。

训练时间和FLOPs与OpenVision的第一个版本相比，作者的新设计显著降低了训练成本。例如，在分辨率224下使用ViT-L/14，训练时间从83小时减少到57小时（约快1.5倍），而每张图像的FLOPs从271.8降至208.9（约低1.3倍）。类似地，在分辨率384下使用SoViT-400M/14，训练时间从241小时降至121小时（约快2倍），每张图像的FLOPs从1636.8减少到1017.7。重要的是，这些效率提升是在多模态基准测试上保持相当甚至更强性能的同时实现的（见第3.1节）。

内存分析。OpenVision 2也展示了显著的内存节省，使得可以使用更大的批量大小。如表4所示，在ViT-L/14分辨率-224设置下，每个TPU芯片的峰值内存使用量从24.5GB降至13.8GB（约低1.8倍），批量大小为2k。等效地，最大批量大小从增加到8k，同时仍然保持在TPU v4核心的32GB内存限制内。在分辨率384的SoViT-400M/14上也观察到类似趋势，OpenVision 2支持批量大小1k，而前一版本因内存不足（OOM）而失败。

CLIPA和token masking的效果。为了区分每种优化的贡献，作者在表5中进一步比较了CapPa 和作者的变体。CLIPA优化和token masking各自都对效率提升有所贡献，而它们的结合产生了最佳结果。例如，在分辨率为224的ViT-L/14上，训练时间从217小时（CapPa Baseline ）减少到仅使用masked tokens时的190小时，仅使用CLIPA优化时的67小时，当两种策略结合时进一步减少到。这表明作者的设计不仅提高了效率，而且当两种优化一起应用时还能协同扩展。

总之，OpenVision 2在训练时间、FLOPs和内存占用方面实现了显著减少，使其能够高效扩展到高分辨率输入和更大的批量大小。这些效率提升进一步使将视觉编码器推向十亿参数规模成为可能。事实上，作者成功训练了一个拥有10亿参数的OpenVision 2- 模型（见表1和表2），该模型在保持成本效益的同时设立了强大的新基准。

3.3. 消融研究

作者进行消融研究以更好地理解OpenVision 2的设计选择。特别是，作者专注于字幕监督的效果和图像 Token 的 Mask 比例。结果总结在表6和表7中。

字幕类型的影响 作者首先分析了用于训练的不同字幕来源的影响。如表6所示，使用原始alt-text训练的模型表现最差，反映了网络标注的噪声和不一致性。用MLLMs生成的合成字幕替换原始alt-text会带来显著的改进。ReCap-DataComp-1B及其变体ReCap-DataComp1B v2都显著优于原始alt-text，在TextVQA上提升了 +5.1，在OCR-Bench上提升了。虽然ReCapDataComp-1B在某些基准测试上取得了稍高的分数，但作者采用ReCap-DataComp-1B v2作为作者的默认设置。这一选择基于两个因素：(i) v2在OCR相关任务上表现出更强的性能，而这些任务对多模态基准测试至关重要；(ii) 通过在字幕生成过程中以原始alt-text为条件，v2提供了额外的多样性和潜在知识，这些知识有利于需要更广泛推理的任务（例如ScienceQA [41]）。这些结果突显了大规模合成字幕作为视觉语言预训练的可靠监督信号的有效性。

图像 Token 保留比例的影响。作者通过改变作为字幕条件保留的视觉 Token 比例，进一步研究了 Mask 策略的影响。表7显示保留所有 Token（）并未获得最佳结果；相反，适度的 Mask 比例能带来更强的性能。具体而言，仅保留的 Token 可达到最佳平衡，提升 OCR－Bench和

TextVQA与两种极端情况（或）相比。这证实了token Mask不仅减少了训练开销，还通过迫使模型依赖更少但信息量更丰富的视觉token来增强局部语义表示。

04 相关工作

视觉语言预训练。 自CLIP和ALIGN以来，使用带噪声的网络替代文本进行对比学习已成为视觉语言预训练的主流范式。这一趋势因LAION-400M 等开放数据集而得到进一步加强。后续工作探索了更高效的架构和对齐策略，包括采用动量蒸馏和交叉注意力的ALBEF [29]、直接将图像块嵌入Transformer的ViLT [23]，以及进行像素级对齐的Pixel-BERT [17]。最近的努力通过数据过滤和训练策略提高了可扩展性和鲁棒性，例如EVA-CLIP [50]、DataComp [16]和DFN [13]。最近以数据为中心的方法通过优化或合成字幕进一步改进了监督，例如LaCLIP [11]、VeCLIP [24]、DreamLIP [63]以及Liu等人[39]的工作。同时，BLIP [28]和BLIP-2 [27]整合了字幕过滤和LLM连接器(Q-Former)，而PaLI/PaLI-X [6, 5]和Kosmos-2 [43]则强调了多语言扩展和定位。OpenVision [30]引入了首个完全开放且具有成本效益的视觉编码器系列，在LLaVA-1.5和Open-LLaVA-Next下均表现出强大的结果。这些进展确立了对比预训练作为一种强大的范式，但在生成式监督和大规模效率方面仍存在未解决的问题。

生成式预训练。 生成式建模已成为多模态学习的核心范式，其灵感来自自回归语言模型如GPT [45, 46, 2]。在视觉方面，iGPT [4]将像素视为token，而SimVLM [56]为弱监督预训练引入了prefix-LM目标。最近的工作将字幕生成整合为监督：CoCa [61]结合了对比和生成损失，Flamingo [1]通过交叉注意力将冻结的图像编码器与LLMs连接，而CapPa [53]提倡仅使用字幕进行预训练。AIMv2 [14]进一步采用Prefix-ViT进行多模态自回归，而Emu [51]、Chameleon [52]、Unified-IO 2 [40]、VILA-U [57]及相关扩展[9, 8]等大规模模型统一了不同模态的生成。这些生成式方法展示了与语言建模更强的协同作用，但通常会增加训练成本。作者的工作遵循这一路线，同时简化架构并强调效率。

图像描述。 除了对比学习外，描述为视觉-语言表示学习提供了一条互补路径，既作为基准任务，也作为预训练信号的来源。早期工作，从编码器-解码器模型[54, 60]到区域 Level 和弱监督方法[22, 21, 25, 47, 7]，奠定了描述的基础。最近的模型在多模态预训练中利用网络规模描述生成，如GIT [55]、BLIP [28]和Showo [58]。最近的研究表明，描述器本身可以作为可扩展的视觉学习器[53]，这促使仅描述预训练成为对比目标的替代方案。作者的工作通过大规模利用合成描述来延续这一轨迹，证明了它们作为唯一监督信号的有效性。

05 结论

这项工作介绍了OpenVision 2，它通过仅使用标题损失进行训练，显著简化了OpenVision。结合先前的研究，作者再次挑战了普遍认为CLIP风格的对比学习对于可扩展、通用视觉编码器是必不可少的观点；相反，作者证明仅使用标题的生成式预训练不仅是可行的，而且通常是一个更可取的替代方案。为了促进进一步的工作，作者发布了完整的OpenVision 2训练代码、预训练预训练权重和ReCap-DataComp-1B v2语料库。作者邀请社区基于这些资源进行构建，并探索生成式预训练范式的更广泛设计空间，以构建用于多模态基础模型的视觉编码器。