摘要
在多模态表征学习领域,CLIP范式长期以来占据主导地位,但它正面临难以忽视的缩放瓶颈。例如,一些工作需要使用高达几万的batch size和十亿级别的图文对数据才能取得进展 。与此同时,多模态大语言模型(MLLM)在表征任务上展现出巨大的潜力,仅需轻量级的对比学习就能激活强大的表征能力,在困难任务上已大幅超越CLIP模型 。
这引出了一系列亟待解答的问题:MLLM是比CLIP架构更优的表征学习基座吗?训练MLLM-based表征模型的最佳策略是什么?生成能力和表征能力之间是否存在缩放定律?
该研究提出了三大核心贡献:
“语言中心性”分析:首次从各向异性(Anisotropy)和核相似度(Kernel Alignment)两个角度,理论证明了MLLM的“语言中心性”,揭示了为何仅用纯文本训练就能泛化到多模态 。
LCO-Embedding框架:提出了一个以语言为中心的全模态表征学习框架。仅用370k(其中80%为纯语言数据)的极少数据,就在MIEB基准上达到了SOTA,并成功支持语音和视频模态 。
生成-表征缩放定律:首次揭示并理论证明了更强的生成能力会带来更强的表征上限,并提出SeaDoc视觉文档检索基准,证明持续的生成预训练能带来对比学习后更强的检索上限 。
论文链接:https://arxiv.org/pdf/2510.11693
代码仓库链接:https://github.com/LCO-Embedding/LCO-Embedding/tree/main
模型、数据集:https://huggingface.co/LCO-Embedding
MLLM的“语言中心性”:为什么纯文本训练有效?
我们首先深入探究了MLLM作为表征基座的内在机理。我发现,MLLM天然具有“语言中心性”(Language-centricity)。
分析1:各向异性的泛化
与普遍的基座模型表征坍缩现象(representation degeneration)的研究吻合,在训练前(Before training),MLLM的表征空间是具有坍缩现象。即,随机采样样本间具有较高的余弦相似度数学期望,而这一现象存在于视觉、语音、视频和文本空间中。我们发现,此时如果仅在模型上进行纯文本对比学习(Text-only CL),一个惊人的现象发生了:不仅文本表征空间变得各向同性(Isotropic),这种特性还自动"泛化(Generalize)"到了图像、音频和视频模态。这说明,MLLM的语言模块是连接所有模态、提高表征质量的核心枢纽。
分析2:核相似性结构的绑定
进一步,我们通过“核相似性结构”(kernel-level similarity structure)分析发现,纯文本对比学习不仅重塑了文本空间,也同时将图像、音频、视频等其他模态的表征结构与文本的表征结构上的“绑定”增强了 。
具体上,采用一系列文本-图像对子,使用文本对文本进行自检索,图像对图像进行自检索,我们希望二者相似度结构一致(如,与第0个文本最相似的文本为第400、和第700个文本,我们也希望与第0张图片最相似的图片为第400、第700个图像)。而模态间top k相似度的重合比例,就被我们使用来量化“核相似度结构”。我们发现在做完纯文本对比学习后,文本-图像的这一量化指标上升了,而不是下降了。说明图像空间没有被“留在原地”,而是跟着已经提升的文本空间在空间上移动,并且绑定得更紧密了。
这两点分析共同证明了MLLM的“语言中心性”:语言空间是MLLM的“核心枢纽”,优化语言表征空间可以自然地带动其他模态表征空间的优化。这也说明了,在预训练(生成训练)阶段,LLM模块已经通过“在同一空间利用各个模态信息”这一目标,建立了强大的以语言为中心的跨模态隐性对齐。
LCO-Embedding:高效的全模态表征学习新范式
基于“语言中心性”的发现,我们提出了LCO-Embedding (Language-Centric Omnimodal Embedding) 框架 。该框架的核心思想是,不再依赖海量的图文对,而是以高效的纯文本数据为主进行训练。
我们在权威的MIEB (Massive Image Embedding Benchmark) 基准上进行了验证,该基准包含8大类、共130项复杂的图文表征任务,除了检索、图像线性探针、图像聚类、零样本分类等传统的任务,该基准还包括复杂的任务,包括组合性评估(Compositionality)这类考察跨模态细节信息对齐的任务、视觉中心的问答(Vision-centric QA)这一考察视觉推理空间的对齐的任务、以及视觉文档检索(Visual document retrieval)、视觉化文本语义相似度(Visual STS)等两个考察图片中文字理解的任务。
第一部分结果:只使用纯文本训练,获得有竞争力的表现。
我们还尝试了使用不同的纯文本数据进行训练,研究不同文本数据对多模态表征能力的泛化模式,以及不同checkpoint的权重融合。如下图可见,使用自然语言推理对子allNLI进行训练,可极大泛化到视觉化文本语义理解以及视觉文档检索(即,模型通过学习表征文字,泛化到表征“图片里的文字”)。而使用我们制作的数据集Scale-1M(100万条多样来源的对子,包含QA,多语言、检索等),可以泛化到图片线性探针,多语言图片检索等,即,通过对应的文字能力泛化到对应的图片能力。
第二部分结果:增加少量多模态合成数据(约100k),获得MIEB benchmark的SOTA。
获得第一阶段的结果后,我们尝试增加少量多模态数据,进一步将表征空间矫正到下游任务空间内,增加的数据包含视觉文档检索、图片检索等单到单模态数据,以及VQA等图文交错数据。可见,仅通过不到100k的额外多模态数据,我们就获得了MIEB的SOTA,其中,我们的3B Omni模型已经超越先前7B和11B的SOTA模型。
SOTA性能:370k数据超越9B参数模型
LCO-Embedding框架不仅高效,而且性能强大。
仅纯文本训练:LCO-Emb-VL(7B)仅使用276k纯文本数据训练,在MIEB-Lite(51任务)上的平均分已达到62.3,超越了使用20亿(2B)图文对训练的CLIP-ViT-bigG(51.3分)和使用90亿(9B)图文对训练的SigLIP-so400m(53.5分)。
加入少量多模态数据:在276k纯文本数据基础上,仅增加约100k的多模态合成数据(总计370k) ,训练出的LCO-Emb-Omni(7B)模型,在MIEB-Lite上取得了68.8的平均分,刷新了该基准的SOTA纪录。
这一结果表明,以语言为中心的训练范式,可以用极小的数据量(370k,其中80%是纯文本)达到甚至超越依赖海量图文对(数十亿)的传统范式。
惊人的效率:5小时LoRA训练 vs 450小时CLIP式训练
一个自然的问题是,为什么不进一步增加多模态数据的量?在实际训练中,我们发现进一步增加多模态数据的量会对模型基础能力有较大的破坏。在这里我们取一种极端进行分解实验,即,所有数据都使用图文对子,以CLIP的范式训练,以及用各种训练方式训练纯文本的数据。
实验结果对传统理解具有较大的颠覆性。我们对比了多种训练策略:
基线 (Qwen2.5-VL-3B):平均分 51.49。
CLIP式CL (多模态):使用使用PixmoCaps高质量image captioning对子700k图文对,训练约453.0 GPU小时平均分53.38。
纯文本全量微调:使用276k文本对,训练约8.5 GPU小时,平均分 62.10。
纯文本LoRA微调:使用276k文本对,训练仅约4.7 GPU小时,平均分高达 66.28。
仅使用纯文本数据和的LoRA训练,其效果已远超耗时50-100倍的传统CLIP式训练,充分证明了LCO范式的高效性。LoRA的优势我们分析主要有两方面原理:1)LoRA参数量小,对基座模型生成知识扰动较小。2)LoRA不会apply到MLLM的text embedding层,不会对生成训练阶段已经对齐好的多模态空间有太大的破坏。
“生成-表征缩放定律”:更强生成力 = 更强表征上限
该研究的第三个重大贡献,是揭示了“生成-表征缩放定律”(Generation-Representation Scaling Law) 。
我们发现,MLLM的生成能力和其表征能力上限之间存在强烈的正相关关系 。我们先绘制了模型在OCR、视频转文本、音频转文本等生成任务上的分数(X轴)与经过对比学习后在表征任务上的分数(Y轴)的关系图 。
结果显示,无论在哪种模态上,模型的生成性能越强,其最终的表征检索能力也越强。
在文章中,我们给出了生成能力为表征能力的上限的数学证明。
那么,如何突破表征上限?答案:持续生成预训练
既然生成能力决定了表征上限,那么提升表征的“天花板”就有了一条清晰路径:先提升模型的生成能力 。
我们为此构建了一个新的SeaDoc基准(东南亚低资源语言视觉文档检索) ,进行了一项关键实验 :
基线 (Baseline):直接在SeaDoc数据上进行对比学习(CL),n-DCG@10得分约为23.5。
LCO策略:先在SeaDoc数据上进行持续的生成预训练(Continual Generative Training),包含几种settings,使用1)SeaDoc-train,提升东南亚低资源语言的OCR相关生成能力。2)加上PixmoCaps,保持基座模型的通用域视觉感知能力。3)以上两种setting分别用低像素、高像素训练,然后再进行同等的对比学习。
结果显示,经过生成预训练的加持,模型在对比学习后的检索性能大幅提升,n-DCG@10得分飙升至38.0,远超原始基线。这有力地证明了“生成-表征缩放定律”的有效性:持续的生成预训练能带来对比学习后更强的检索上限 。
总结
阿里巴巴达摩院的这项NeurIPS 2025研究,为多模态表征学习领域带来了全新的视角和高效的解决方案。
论文的三大核心贡献——“语言中心性”的理论分析、高效SOTA的LCO-Embedding框架 、以及“生成-表征缩放定律”的发现 ——共同指向了一个新的发展方向:利用MLLM的语言中心性,以(纯)文本数据为核心,通过提升生成能力来“解锁”更强的全模态表征能力。
据悉,LCO-Embedding模型家族也已开源,为社区提供了强大易用的多模态表征基座。
|往期内容回看



