文本输入,可能要退出历史舞台了。
DeepSeek-OCR 模型发布后,Andrej Karpathy 在 X 上发了篇长文对论文进行了讨论,并抛出了一个大胆的想:
也许所有输入 LLM 的内容,都应该是图像而不是文本。
作为 OpenAI 的创始团队成员、前 Tesla AI 总监,Karpathy 自称是「计算机视觉出身,临时客串自然语言处理的人」。并称:
文本 token 可能是一种浪费,在输入端简直糟糕透了。
我其实也,早就算过这笔账了
其实,早在今年 6 月,我就算过这笔「浪费账」了。
当时我写过一篇文章:分享2个模型省钱大法,在里面分享到了一个省钱黑技巧:用长文本截图来替代纯文字让 ChatGPT 回答,成本能直接降低 75%,效果还相差不多。

我出了一道题目长为 928 字的数学题,分别用纯文字和截图两种方式调用 API,结果如下:
纯文字输入:796 tokens,花费 $0.0016
截图输入(低分辨率):192 tokens,花费 $0.000388


模型都回答对了,给出了同样的答案,但省了 75% 的钱。
这里的关键是,类似 DeepSeek-OCR 的低分辨率模式,要把图片参数设置为 "detail": "low",这样图片会固定消耗 85 tokens。如果不设置,则会默认按高分辨率计费,反而更贵。
BTW,我这篇文章里还有另一种省钱大法,也可以去看看
而现在,Karpathy 和 DeepSeek-OCR 进一步从技术架构层面论证了「图像输入比文本更高效」,我这也勉强算是……提前预判了吧
不过,省钱只是表象,从信息压缩的本质上来理解则是:
文本 token 在处理长文本时确实存在冗余,而图像通过固定的 token 消耗,无论承载多少文字信息,成本都是恒定的。
当然,你可别把 100 万字截成个 16x16 像素的图……
图像输入优势
图像相较于文字输入的优势,Karpathy 给出了几个理由:
信息压缩更高效
论文中提到,通过图像输入可以实现更好的信息压缩,这意味着上下文窗口可以更短,效率更高。
信息流更通用
不只是纯文本,还能处理粗体、彩色文本、任意图像。这种通用性是纯文本 token 无法比拟的。
可以轻松使用双向注意力机制
图像输入天然适合双向注意力,而不是自回归注意力。这比文本处理强大得多。
最关键的是第四点:可以删除分词器!
分词器必须消失
Karpathy 毫不掩饰地表达他对分词器的厌恶。他说:
分词器「丑陋、独立、不是端到端的阶段」。
分词器会「导入」Unicode、字节编码的所有丑陋之处,继承了大量历史包袱,还带来安全和越狱风险(比如续字节攻击)。
更糟糕的是,两个在人眼看来完全相同的字符,在网络内部可能被视为完全不同的 token。
一个微笑表情符号看起来像一个奇怪的 token,而不是一张实际的微笑脸,带着所有像素和所有迁移学习的好处。
Karpathy 的结论是:
分词器必须消失。
架构设想:输入图像,输出文本
Karpathy 提出了一个有趣的架构设想:也许用户消息应该是图像,但解码器(助手回复)仍然是文本。
因为现实地输出像素要困难得多,也不太清楚是否真的需要这样做。
OCR 只是众多有用的「视觉到文本」任务之一。
而「文本到文本」的任务可以变成「视觉到文本」的任务,反之则不行。
Karpathy 还开玩笑说,现在他必须克制住冲动,不要去做一个「只接受图像输入」的 nanochat 版本。见:刚刚,Andrej Karpathy放出大招:开源nanochat项目,仅8000行代码100美元就能训练出一个ChatGPT。
技术争论
Karpathy 的推文发出后,引发了许多网友的热烈讨论。
@yoavgo 提出疑问:
为什么图像可以轻松使用双向注意力,而文本不行?而且,没有分词化后,我们在将输入图像分块成 patches 时,不是还会得到类似甚至更丑陋的东西吗?
Karpathy 回复说:
从原则上讲没有什么能阻止文本使用双向注意力,只是文本通常为了效率而采用自回归训练。他可以想象一个中期训练阶段,使用双向注意力来微调条件信息,比如用户消息(不需要采样的 token)。
但他也承认,这个方面严格来说不完全是关于像素与 token 的对比,更多的是像素通常被编码,而 token 通常被解码(用原始 Transformer 论文的术语)。
@yoavgo 继续追问:
双向训练时需要从某处获得信号/损失,要么通过解码(seq2seq),要么通过掩码和恢复(BERT),这两种方式在样本到信息的比率上都比较差,而且不太容易并行化。但图像如何解决这个问题?
Grok 也提供了补充说明:
双向注意力允许模型同时考虑序列中过去和未来的 token 上下文,就像 BERT 中的编码一样,这对于理解完整上下文而不生成内容很有用。
自回归(单向)注意力,如 GPT 中的,只向后看,能够实现逐步预测以生成文本。
文本 token 通常是自回归的,以实现高效训练和采样。
图像 token(patches)通常使用双向注意力进行整体编码,因为图像本质上不是顺序的。这使得图像在 LLM 中的压缩和处理更加灵活。
马斯克:光子才是终极答案
就在讨论如火如荼时,马斯克也冒出来发了一句话:
长期来看,AI 模型超过 99% 的输入和输出将是光子。没有其他东西能扩展。
在马斯克看来,未来 AI 的主要交互方式将是视觉,无论是输入还是输出。
实践经验
一些开发者分享了他们的实际经验。
Gustavo Nicot 表示,他已经逐渐从纯 OCR 转移出来,不仅是因为成本,还因为多模态 LLM 在上下文质量和语义连续性方面都优于 OCR。
即使有干净的文本提取,直接在图像上工作的 LLM 往往能「看到」文字之外的东西:布局、强调、关系意义。
这是一种不同的理解方式,更接近人类解读书面信息的方式。
Cole McIntosh 也有类似经历。他看到许多定制数据提取管道的工作流程是:通过 OCR 处理 PDF 为文本、嵌入、检索,然后基于检索内容进行结构化输出提取。
他想要更少的步骤,所以采取了不同的方法:
将 PDF 转换为图像,通过 VLM 运行并进行结构化输出。
结果更高效、步骤更少,保留了布局(有时很重要的信息)、结构/完整性,并且整体效果更好。
Phil Trubey 补充道:
基于文本的 LLM 在使用分词器时要处理很多垃圾。人类当然不会像 LLM 那样进行分词。
所以为什么不以人类的方式处理文本呢?通过识别字母的形状以及所有随之而来的排版。
质疑
当然,也有人对 Karpathy 的观点提出质疑。
Mihir 问道:
将渲染后的原始文本作为图像输入 LLM,真的能让它们更好地理解语言吗?还是只是把问题从分词转移到视觉建模?
Mahaoo 作为视觉领域的人,虽然喜欢图像成为一等公民而不是 3-6 个字符的短字符串,但他指出:
将一万字的文本无损压缩成约 100 个 token 显然非常容易,因为每个 token 毕竟是一个非常高维的向量。
如果这是你想要实现的主要目标,通过图像来做就有点像「用左手挠右耳」。
当然,还有其他可以通过这种方式实现的目标(文档格式、字体类型和大小、颜色,甚至字母的形状等,都为人类读者传达信息),对此他完全支持。
未来
早在 GPT 时代,Karpathy 就对 tokenizer 的各种问题颇有微词,这次借 DeepSeek-OCR,也是把这些年积累的思考和不满一口气释放出来了。
从文本到图像,虽然模型能力并非 SOTA,但 DeepSeek 此次的发布,或许将再一次带来对智能的思考方式的转变。
过去我们习惯于把所有东西都转化成文本,因为文本容易处理、容易存储、容易传输。
但在 AI 时代,这些「方便」可能反而成了桎梏。
图像保留了更多原始信息,排版、颜色、布局——这些在纯文本中会丢失的细节,对于理解内容可能至关重要。
若是如马斯克所言,「光子论」真的到来,未来 AI 真的主要通过光子(即视觉)来交互,那么现在基于文本的整个技术栈,都需要重新思考,回炉重造一遍了。
当然,这条路还很长,也有许多不确定性和问题。
如 Mahaoo 所说,用图像处理纯文本在某些场景下确实有点「脱裤子放屁」。
但对于包含复杂格式、多种信息类型的真实世界文档,图像输入的优势就显而易见了。
也许,若干年后再回头看,Karpathy 的此次发言将再次成为一个转折点——
AI 开始从「语言模型」真正进化为「世界模型」,因为——
这个世界,首先是视觉的。
👇
👇
👇
另外,我还用AI 进行了全网的AI 资讯采集,并用AI 进行挑选、审核、翻译、总结后发布到《AGI Hunt》的实时AI 快讯群中。
这是个只有信息、没有感情的 AI 资讯信息流(不是推荐流、不卖课、不讲道理、不教你做人、只提供信息、希望能为你节省一些时间)
欢迎加入!
也欢迎加群和10000+群友交流。

