作者|陈浩邦 阿里巴巴达摩院算法工程师
在多模态表征学习领域,CLIP范式长期占据主导地位,但其面临显著的缩放瓶颈,依赖数十亿图文对和超大batch size才能提升性能。相比之下,多模态大语言模型(MLLM)展现出更强潜力,仅需轻量级对比学习即可激活卓越的表征能力,在复杂任务上已大幅超越传统CLIP模型。
这一现象引发关键问题:MLLM是否是更优的表征学习基座?训练MLLM-based模型的最佳策略是什么?生成能力与表征能力之间是否存在可量化的规律?
该研究提出三大核心贡献:
- 语言中心性分析:首次从各向异性与核相似度两个角度理论证明MLLM的“语言中心性”,揭示纯文本训练为何能泛化至多模态任务。
- LCO-Embedding框架:提出以语言为核心的全模态表征学习新范式,仅用37万数据(80%为纯文本),在MIEB基准上达到SOTA,并支持语音、视频等多模态。
- 生成-表征缩放定律:首次揭示并理论证明更强的生成能力带来更高的表征上限,提出SeaDoc视觉文档检索基准,验证持续生成预训练可显著提升检索性能。
论文链接:https://arxiv.org/pdf/2510.11693
代码仓库:https://github.com/LCO-Embedding/LCO-Embedding/tree/main
模型与数据集:https://huggingface.co/LCO-Embedding
MLLM的“语言中心性”:为什么纯文本训练有效?
研究发现,MLLM天然具备“语言中心性”,即语言模块作为跨模态的核心枢纽,优化语言表征可带动图像、音频、视频等其他模态同步提升。
分析1:各向异性的泛化
在预训练阶段,MLLM的各模态表征空间均呈现坍缩现象(高余弦相似度)。当仅对文本进行对比学习时,不仅文本空间趋于各向同性,图像、音频、视频模态也自动实现类似特性,表明语言优化具有跨模态泛化效应。
分析2:核相似性结构的绑定
通过“核相似性结构”分析发现,纯文本对比学习不仅优化文本空间,还增强了图像、音频、视频等模态与文本之间的结构一致性。例如,文本自检索与图像自检索的top-k相似关系重合度显著上升,说明其他模态空间随语言空间协同演化,实现更紧密的跨模态对齐。
两项分析共同验证了MLLM的“语言中心性”:语言是跨模态表征的核心驱动力,生成预训练阶段已建立以语言为中心的隐性对齐机制。
LCO-Embedding:高效的全模态表征学习新范式
基于“语言中心性”,研究提出LCO-Embedding(Language-Centric Omnimodal Embedding)框架,摒弃依赖海量图文对的传统模式,转而以纯文本为主进行高效训练。
在权威MIEB(Massive Image Embedding Benchmark)基准上测试,涵盖130项复杂图文任务,包括组合性评估、视觉问答、视觉文档检索和视觉语义相似度等挑战性任务。
第一阶段:纯文本训练即具竞争力
仅使用276k纯文本数据进行对比学习,LCO-Emb-VL(7B)在视觉文档检索、多语言图片检索等任务上已超越多个SOTA模型。实验显示:
- 使用allNLI数据训练,显著提升对图片中文字的理解能力;
- 使用自建Scale-1M数据集(含QA、多语言、检索等),可泛化至图像线性探针、多语言检索等任务。
第二阶段:加入少量多模态数据达SOTA
在纯文本训练基础上,仅增加约10万合成多模态数据(如视觉文档、VQA等),总数据量37万,训练出的LCO-Emb-Omni(7B)在MIEB-Lite上取得68.8平均分,刷新SOTA纪录,超越此前7B甚至11B参数模型。
SOTA性能:37万数据超越90亿图文对模型
- 纯文本训练:LCO-Emb-VL(7B)仅用276k文本数据,在MIEB-Lite上达62.3分,超过使用20亿图文对的CLIP-ViT-bigG(51.3分)和90亿图文对的SigLIP-so400m(53.5分)。
- 加入多模态数据:总计37万数据训练的LCO-Emb-Omni(7B),平均分达68.8,创下新高。
结果表明,语言中心范式以极小数据量(37万,80%为文本)即可超越依赖数十亿图文对的传统方法。
惊人效率:5小时LoRA训练 vs 450小时CLIP式训练
对比多种训练策略:
- 基线(Qwen2.5-VL-3B):平均分51.49
- CLIP式训练(70万图文对):耗时约453 GPU小时,得分53.38
- 纯文本全量微调(276k):耗时8.5 GPU小时,得分62.10
- 纯文本LoRA微调(276k):仅耗时4.7 GPU小时,得分高达66.28
LoRA微调效果远超传统CLIP式训练,验证LCO范式的高效性。其优势在于:参数扰动小,且不作用于text embedding层,保留预训练阶段建立的跨模态对齐结构。
“生成-表征缩放定律”:更强生成力 = 更强表征上限
研究首次提出并验证“生成-表征缩放定律”:MLLM的生成能力越强,其表征能力上限越高。
实验显示,在OCR、视频转文本、音频转文本等生成任务上的表现(X轴)与对比学习后表征性能(Y轴)呈强正相关。研究从数学上证明生成能力构成表征能力的理论上限。
突破表征上限:持续生成预训练
为验证该定律,构建新基准SeaDoc(东南亚低资源语言视觉文档检索),开展关键实验:
- 基线:直接在SeaDoc上做对比学习,n-DCG@10得分为23.5
- LCO策略:先进行持续生成预训练(使用SeaDoc-train提升OCR能力,结合PixmoCaps保持通用视觉感知,高低像素设置下训练),再执行同等对比学习
结果显示,经生成预训练后,模型在对比学习阶段的检索性能大幅提升,n-DCG@10飙升至38.0,显著超越基线,证实“生成-表征缩放定律”的有效性。
总结
阿里巴巴达摩院此项NeurIPS 2025研究为多模态表征学习提供全新范式。通过揭示“语言中心性”、提出高效LCO-Embedding框架、发现“生成-表征缩放定律”,研究指明一条以语言为核心、以生成能力驱动表征提升的新路径。LCO-Embedding模型已开源,为社区提供强大且高效的多模态表征基座。




