大数跨境

腾讯纯文本LLM训视觉encoder,拿捏图表长视频,达到开源小模型SOTA!

腾讯纯文本LLM训视觉encoder,拿捏图表长视频,达到开源小模型SOTA! 量子位
2026-03-19
6
导读:不走对比学习老路
Penguin-VL团队 投稿
量子位 | 公众号 QbitAI

打破多模态“视觉+语言”拼接常规!腾讯开源Penguin-VL,首次采用纯文本大语言模型(LLM)初始化视觉编码器。

该方案跳过传统CLIP/SigLIP等对比学习视觉骨干网络,直接从text-only LLM出发构建vision encoder,在2B/8B紧凑参数规模下,于文档理解、图表解析、长视频时序定位等复杂任务中展现突出性能。

从LLM出发的视觉编码器重构

当前主流多模态模型普遍沿用“成熟视觉backbone + 接入LLM”的范式:先通过对比学习训练视觉编码器(如CLIP),再与语言模型联合微调。该路径虽稳定高效,但其预训练目标——判别、检索、图文对齐——天然倾向压缩局部结构、空间关系与时序细节。

而文档阅读、细粒度描述、多图推理、长视频关键帧定位等任务,恰恰依赖这些易被抹平的信息。Penguin-VL由此将焦点转向常被默认的vision encoder本身,提出反常识思路:既然最终需与LLM协同推理,为何不直接从LLM初始化视觉编码器?

由此诞生Penguin-Encoder:不依赖传统视觉骨干,而是继承text-only LLM的完整架构与能力基础,包括attention机制、FFN、GQA、RMSNorm及成熟的序列建模与因果推理能力,使视觉表征天然更贴近语言推理链路。

为适配视觉任务,Penguin-VL进行两项关键改造:

  • 将causal attention替换为bidirectional attention,增强局部特征交互;
  • 引入2D-RoPE位置编码,显式建模图像与视频的二维空间结构。

因此,Penguin-Encoder并非简单复用LLM参数,而是以LLM为起点,经面向视觉的专门训练,真正演变为高性能视觉编码器。

整体架构由三部分组成:LLM初始化的Penguin-Encoder、MLP projector与下游语言模型。视觉侧统一采用2D-RoPE与双向注意力处理图像/视频;长视频场景引入TRA(Temporal Redundancy-Aware)策略,动态分配token预算,优先保留关键帧信息。

三阶段训练与性能验证

训练分为三个阶段:

  • Stage 1(Encoder预训练):低分辨率预训练→高分辨率微调,辅以reconstruction loss与relation loss,强化对文档、图表等结构化视觉信息的保真能力;
  • Stage 2(VLM预训练):联合优化Penguin-Encoder、projector与LLM,建立跨模态知识联结;
  • Stage 3(监督微调):针对具体下游任务对齐能力。

TRA机制在长视频处理中尤为关键:不平均分配计算资源,而是智能压缩冗余帧,确保关键时序信息留存。

在2B/8B参数量级下,Penguin-VL在多项权威基准上表现优异:

  • 2B版本:InfoVQA、ChartQA、DocVQA、V-star、LongVideoBench、NextQA、Perception Test等任务均达领先水平;
  • 8B版本:进一步覆盖AI2D、RealWorldQA、CharadesSTA等任务,在文档理解、视觉知识推理、长视频理解三大方向优势持续巩固。

结果表明:vision encoder起点的革新,可在更小参数规模下有效保留核心视觉信息,而非单纯依赖模型放大。

消融实验进一步验证核心设计价值:

  • 随机初始化Penguin-Encoder平均得分为31.3;
  • LLM初始化+完整训练流程后提升至34.6;
  • 在encoder集成对比中达49.3平均分,且仅使用约2.4亿Stage 1样本,即超越多种依赖更大规模对比学习预训练的方案。

这有力证明:LLM初始化vision encoder不仅可行,更是一条具备理论合理性与工程实效性的新路径。

Penguin-VL的意义不止于benchmark刷新。它提示业界:多模态建模不必固守“视觉backbone + LLM拼接”的单一范式;未来vision encoder的源头,亦可源于更通用、更鲁棒的语言模型架构。

这一思路与DeepSeek-OCR2等近期工作趋势呼应,共同指向一种更原生、更统一的多模态建模方向。

项目代码、模型权重及交互式Demo已全部开源:

【声明】内容源于网络
0
0
量子位
各类跨境出海行业相关资讯
内容 14889
粉丝 0
量子位 各类跨境出海行业相关资讯
总阅读154.3k
粉丝0
内容14.9k