题目:The Scalability of Simplicity: Empirical Analysis of Vision-Language Learning with a Single Transformer
论文地址:https://arxiv.org/pdf/2504.10462v1
创新点
-
提出SAIL(Single trAnsformer for vIsion and Language)架构,采用单一Transformer实现图像像素编码与语言解码的统一建模,无需依赖预训练视觉编码器(如ViT),简化结构并提升可扩展性。
-
实验证明,SAIL在大规模数据训练下展现出优于模块化多模态大语言模型(MLLMs)的性能增长趋势。经过512M样本预训练后,其表现接近主流模块化模型,验证了单Transformer在数据扩展中的潜力。
方法
SAIL通过将原始图像块和文本序列直接映射为统一嵌入空间,在单个Transformer中完成跨模态建模。模型摒弃传统ViT等独立视觉编码模块,采用混合注意力机制:图像块内使用双向注意力以捕捉全局空间关系,文本部分保留因果注意力以维持语言生成逻辑。同时引入多模态旋转位置编码(M-RoPE),协调图像与文本的位置信息建模。研究系统评估了SAIL在模型与数据规模扩展下的性能变化,并分析其在视觉表示、跨模态理解等方面的能力。
SAIL与模块化MLLMs的数据扩展曲线对比
图示展示了SAIL与模块化MLLMs在不同数据量下的性能对比。随着训练数据增加,SAIL表现出更优的扩展性,在512M样本阶段性能趋近模块化模型。同时,与其他单Transformer模型相比,SAIL在多项多模态任务中取得领先结果。
单一Transformer架构的可扩展性
该图展示SAIL的架构设计细节。(A)整体架构为端到端单Transformer,图像被切分为块并通过线性投影转为嵌入,文本则经分词器处理;两者拼接后输入统一模型。(B)混合注意力机制允许图像块内部token双向交互,增强视觉上下文建模能力,同时保持文本生成的因果性。(C)多模态RoPE(M-RoPE)支持图像与文本位置编码的协同学习,提升跨模态对齐效果。
SAIL的模型扩展性
图示显示SAIL在不同模型规模下的训练损失与下游任务性能变化。左侧表明,随着参数量增加,语言建模损失持续下降,反映模型学习能力增强;右侧显示,更大的模型在视觉语言任务上的平均性能同步提升,验证了SAIL良好的模型可扩展性。
实验结果
实验结果显示,SAIL在多个视觉语言基准测试中表现优异,优于Fuyu、EVE、SOLO等同类单Transformer模型。在部分指标上,其性能接近LLaVA-OneVision等模块化MLLMs,尤其在通用视觉理解任务中表现突出。此外,SAIL作为视觉编码器在图像分类与语义分割任务中达到ViT-22B相当水平,证明其具备强大的视觉表征能力。
-- END --

