极市导读
本文提出“文本即图像”输入压缩:把长文渲染成图喂给多模态 LLM,视觉 token 减半、任务精度不减,Qwen2.5-VL 推理再提速 45%,零微调即插即用。>>加入极市CV技术交流群,走在计算机视觉的最前沿
近年来,大型语言模型(LLMs)及其多模态变体(MLLMs)已能处理图像、文本等多种输入。然而,长文本输入带来的高计算成本始终是部署中的关键瓶颈——Transformer的自注意力机制复杂度随输入长度平方级增长,导致处理长文档或对话时效率低下。尽管上下文长度不断扩展,但令牌数量的激增仍制约着模型的吞吐量和实际应用成本。
-
论文:Text or Pixels? It Takes Half: On the Token Efficiency of Visual Text Inputs in Multimodal LLMs -
链接:https://arxiv.org/pdf/2510.18279
一个有趣的问题随之浮现:能否通过将文本转换为图像来压缩输入,减少令牌使用,同时保持模型性能? 本论文首次系统性地探索了“文本即图像”这一输入压缩策略。通过将长文本渲染为单张图像,并直接输入多模态模型,作者发现解码器所需的令牌数量可减少近一半,且任务性能未受显著影响。这一发现不仅为输入压缩提供了新思路,也揭示了多模态模型在高效推理中的潜力。
01 研究动机:为何需要文本输入压缩?
长文本处理是LLMs应用中的常见场景,例如文档分析、多轮对话或复杂推理任务。传统方法通过令牌修剪、摘要或软提示等技术压缩输入,但这些方法往往需要额外训练或引入偏差。另一方面,多模态模型(如GPT-4V、Gemini)天然具备从图像中读取文本的能力,其视觉编码器能将图像转换为固定长度的视觉令牌序列,且数量远少于原始文本令牌。
论文指出,现有研究虽已尝试“文本即图像”输入,但多关注模型能力而非效率。本文的核心动机在于:利用多模态模型的视觉编码器作为隐式压缩层,在不微调模型的前提下,显著降低解码器的令牌负担。这种方法的优势在于:
-
无监督性:无需额外训练或标注数据 -
通用性:适用于任何支持图像输入的多模态模型 -
高效率:视觉令牌数量固定,与文本长度无关
02 方法概述:文本转图像的压缩管道
论文提出一个简单的文本转图像流程,将长上下文渲染为图像,并与短文本查询拼接后输入多模态模型。具体步骤如下:
-
文本渲染:使用LaTeX排版引擎将文本转换为高质量图像,保留原始布局与换行。 -
视觉编码:通过预训练的视觉编码器(如CLIP)将图像映射为固定长度的视觉令牌序列。 -
投影与输入:视觉令牌通过线性层投影到语言模型的空间,与文本查询拼接为最终输入。
整个过程如下图所示:
该图直观展示了如何将90个令牌的文本压缩为50个视觉令牌,节省近一半输入长度。
03 方法:问题形式化与评估协议
3.1 问题形式化
-
文本基线:将上下文 (长度 )与查询 拼接,输入长度为 。 -
图像输入:将 渲染为图像 ,经视觉编码器生成 个视觉令牌,输入长度为 。
3.2 压缩比定义
压缩比 定义为:
该公式量化了令牌节省程度, 表示压缩有效。
3.3 评估协议
对每个样本分别运行文本基线和图像输入模式,比较:
-
准确性:任务特定指标(如检索准确率、ROUGE分数) -
令牌使用量: 与 -
延迟:端到端推理时间
04 实验设置与基准任务
论文在两个典型长上下文任务上验证方法:
-
RULER S-NIAH:长上下文检索任务,模型需从干扰段落中提取目标数字。 -
CNN/DailyMail:文档摘要任务,评估生成质量。
使用的模型包括:
-
GPT-4.1-mini(API调用) -
Qwen2.5-VL-72B-Instruct(开源模型)
对比基线包括:
-
Select-Context:基于自信息的令牌修剪 -
LLMLingua-2:基于Transformer的令牌选择模型
05 实验结果与分析
5.1 长上下文检索:准确性与令牌节省的平衡
在RULER任务中,文本转图像输入在保持高准确性的同时,显著减少了令牌使用。例如:
-
GPT-4.1-mini在 视觉令牌时,可容忍 文本令牌,压缩比 。 -
Qwen2.5-VL-72B在 时,容忍 ,压缩比 。
该图展示了不同视觉令牌预算下,模型准确性随文本长度增加的变化。当文本令牌数量超过容忍阈值 (m^*) 时,性能急剧下降。
表中数据显示,图像输入将解码器令牌减少38%-58%,且准确性未显著降低。
5.2 文本令牌容忍度与视觉令牌的关系
图中显示,文本令牌容忍度 与视觉令牌数量 呈线性正相关,压缩比稳定在 2 左右。这表明视觉预算与文本压缩容量之间存在可预测的权衡。
5.3 文档摘要:视觉输入优于专用修剪方法
在CNN/DailyMail任务中,文本转图像方法在保留仅40%令牌的情况下,生成质量优于两种令牌修剪基线:
-
BERTScore和ROUGE指标均接近文本基线 -
在相同压缩率下,视觉输入更全面地保留原文信息
性能对比表明,文本转图像在令牌减少62%-67%时,仍保持较高的摘要质量。
5.4 延迟分析
-
GPT-4.1-mini因API开销,图像输入延迟略高 -
Qwen2.5-VL-72B因序列缩短,推理速度提升25%-45%
06 结论
本论文通过实证研究表明,将文本输入转换为图像是一种高效、实用的输入压缩方法。在多模态大语言模型中,视觉文本输入可将解码器令牌数量减少近一半,且在长上下文检索与文档摘要任务中保持性能无损。该方法无需模型调整,兼容现有系统,为提升LLM推理效率开辟了新路径。未来,通过结合其他压缩技术与多模态融合,有望进一步突破长上下文处理的瓶颈。
公众号后台回复“数据集”获取100+深度学习各方向资源整理
极市干货

点击阅读原文进入CV社区
收获更多技术干货

