大数跨境
0
0

LLM算力告急?把文本变图片,推理成本直接减半!

LLM算力告急?把文本变图片,推理成本直接减半! 极市平台
2025-12-05
2
↑ 点击蓝字 关注极市平台
作者丨深度学习自然语言处理
来源丨深度学习自然语言处理
编辑丨极市平台

极市导读

 

本文提出“文本即图像”输入压缩:把长文渲染成图喂给多模态 LLM,视觉 token 减半、任务精度不减,Qwen2.5-VL 推理再提速 45%,零微调即插即用。>>加入极市CV技术交流群,走在计算机视觉的最前沿

近年来,大型语言模型(LLMs)及其多模态变体(MLLMs)已能处理图像、文本等多种输入。然而,长文本输入带来的高计算成本始终是部署中的关键瓶颈——Transformer的自注意力机制复杂度随输入长度平方级增长,导致处理长文档或对话时效率低下。尽管上下文长度不断扩展,但令牌数量的激增仍制约着模型的吞吐量和实际应用成本。

  • 论文:Text or Pixels? It Takes Half: On the Token Efficiency of Visual Text Inputs in Multimodal LLMs
  • 链接:https://arxiv.org/pdf/2510.18279

一个有趣的问题随之浮现:能否通过将文本转换为图像来压缩输入,减少令牌使用,同时保持模型性能? 本论文首次系统性地探索了“文本即图像”这一输入压缩策略。通过将长文本渲染为单张图像,并直接输入多模态模型,作者发现解码器所需的令牌数量可减少近一半,且任务性能未受显著影响。这一发现不仅为输入压缩提供了新思路,也揭示了多模态模型在高效推理中的潜力。

01 研究动机:为何需要文本输入压缩?

长文本处理是LLMs应用中的常见场景,例如文档分析、多轮对话或复杂推理任务。传统方法通过令牌修剪、摘要或软提示等技术压缩输入,但这些方法往往需要额外训练或引入偏差。另一方面,多模态模型(如GPT-4V、Gemini)天然具备从图像中读取文本的能力,其视觉编码器能将图像转换为固定长度的视觉令牌序列,且数量远少于原始文本令牌。

论文指出,现有研究虽已尝试“文本即图像”输入,但多关注模型能力而非效率。本文的核心动机在于:利用多模态模型的视觉编码器作为隐式压缩层,在不微调模型的前提下,显著降低解码器的令牌负担。这种方法的优势在于:

  • 无监督性:无需额外训练或标注数据
  • 通用性:适用于任何支持图像输入的多模态模型
  • 高效率:视觉令牌数量固定,与文本长度无关

02 方法概述:文本转图像的压缩管道

论文提出一个简单的文本转图像流程,将长上下文渲染为图像,并与短文本查询拼接后输入多模态模型。具体步骤如下:

  1. 文本渲染:使用LaTeX排版引擎将文本转换为高质量图像,保留原始布局与换行。
  2. 视觉编码:通过预训练的视觉编码器(如CLIP)将图像映射为固定长度的视觉令牌序列。
  3. 投影与输入:视觉令牌通过线性层投影到语言模型的空间,与文本查询拼接为最终输入。

整个过程如下图所示:

该图直观展示了如何将90个令牌的文本压缩为50个视觉令牌,节省近一半输入长度。

03 方法:问题形式化与评估协议

3.1 问题形式化

  • 文本基线:将上下文  (长度   )与查询   拼接,输入长度为   。
  • 图像输入:将   渲染为图像   ,经视觉编码器生成   个视觉令牌,输入长度为   。

3.2 压缩比定义

压缩比   定义为:

该公式量化了令牌节省程度,  表示压缩有效。

3.3 评估协议

对每个样本分别运行文本基线和图像输入模式,比较:

  • 准确性:任务特定指标(如检索准确率、ROUGE分数)
  • 令牌使用量  与 
  • 延迟:端到端推理时间

04 实验设置与基准任务

论文在两个典型长上下文任务上验证方法:

  1. RULER S-NIAH:长上下文检索任务,模型需从干扰段落中提取目标数字。
  2. CNN/DailyMail:文档摘要任务,评估生成质量。

使用的模型包括:

  • GPT-4.1-mini(API调用)
  • Qwen2.5-VL-72B-Instruct(开源模型)

对比基线包括:

  • Select-Context:基于自信息的令牌修剪
  • LLMLingua-2:基于Transformer的令牌选择模型

05 实验结果与分析

5.1 长上下文检索:准确性与令牌节省的平衡

在RULER任务中,文本转图像输入在保持高准确性的同时,显著减少了令牌使用。例如:

  • GPT-4.1-mini在   视觉令牌时,可容忍   文本令牌,压缩比   。
  • Qwen2.5-VL-72B在   时,容忍   ,压缩比   。

该图展示了不同视觉令牌预算下,模型准确性随文本长度增加的变化。当文本令牌数量超过容忍阈值 (m^*) 时,性能急剧下降。

表中数据显示,图像输入将解码器令牌减少38%-58%,且准确性未显著降低。

5.2 文本令牌容忍度与视觉令牌的关系

图中显示,文本令牌容忍度   与视觉令牌数量   呈线性正相关,压缩比稳定在 2 左右。这表明视觉预算与文本压缩容量之间存在可预测的权衡。

5.3 文档摘要:视觉输入优于专用修剪方法

在CNN/DailyMail任务中,文本转图像方法在保留仅40%令牌的情况下,生成质量优于两种令牌修剪基线:

  • BERTScore和ROUGE指标均接近文本基线
  • 在相同压缩率下,视觉输入更全面地保留原文信息

性能对比表明,文本转图像在令牌减少62%-67%时,仍保持较高的摘要质量。

5.4 延迟分析

  • GPT-4.1-mini因API开销,图像输入延迟略高
  • Qwen2.5-VL-72B因序列缩短,推理速度提升25%-45%

06 结论

本论文通过实证研究表明,将文本输入转换为图像是一种高效、实用的输入压缩方法。在多模态大语言模型中,视觉文本输入可将解码器令牌数量减少近一半,且在长上下文检索与文档摘要任务中保持性能无损。该方法无需模型调整,兼容现有系统,为提升LLM推理效率开辟了新路径。未来,通过结合其他压缩技术与多模态融合,有望进一步突破长上下文处理的瓶颈。


公众号后台回复“数据集”获取100+深度学习各方向资源整理


极市干货

技术专栏:多模态大模型超详细解读专栏搞懂Tranformer系列大视觉模型 (LVM) 解读扩散模型系列极市直播
技术综述:小目标检测那点事大模型面试八股含答案万字长文!人体姿态估计(HPE)入门教程

点击阅读原文进入CV社区

收获更多技术干货

【声明】内容源于网络
0
0
极市平台
为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
内容 8155
粉丝 0
极市平台 为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
总阅读919
粉丝0
内容8.2k