Karpathy 评 DeepSeek-OCR：分词器必须消失！马斯克：光子才是 AI 的终极语言



Karpathy 评 DeepSeek-OCR：分词器必须消失！马斯克：光子才是 AI 的终极语言

AGI Hunt

2025-10-21

导读：文本输入，可能要退出历史舞台了

文本输入，可能要退出历史舞台了。

DeepSeek-OCR 模型发布后，Andrej Karpathy 在 X 上发了篇长文对论文进行了讨论，并抛出了一个大胆的想：

也许所有输入 LLM 的内容，都应该是图像而不是文本。

作为 OpenAI 的创始团队成员、前 Tesla AI 总监，Karpathy 自称是「计算机视觉出身，临时客串自然语言处理的人」。并称：

文本 token 可能是一种浪费，在输入端简直糟糕透了。

我其实也，早就算过这笔账了

其实，早在今年 6 月，我就算过这笔「浪费账」了。

当时我写过一篇文章：分享2个模型省钱大法，在里面分享到了一个省钱黑技巧：用长文本截图来替代纯文字让 ChatGPT 回答，成本能直接降低 75%，效果还相差不多。

我出了一道题目长为 928 字的数学题，分别用纯文字和截图两种方式调用 API，结果如下：

纯文字输入：796 tokens，花费 $0.0016

截图输入（低分辨率）：192 tokens，花费 $0.000388

模型都回答对了，给出了同样的答案，但省了 75% 的钱。

这里的关键是，类似 DeepSeek-OCR 的低分辨率模式，要把图片参数设置为 "detail": "low"，这样图片会固定消耗 85 tokens。如果不设置，则会默认按高分辨率计费，反而更贵。

BTW，我这篇文章里还有另一种省钱大法，也可以去看看

而现在，Karpathy 和 DeepSeek-OCR 进一步从技术架构层面论证了「图像输入比文本更高效」，我这也勉强算是……提前预判了吧

不过，省钱只是表象，从信息压缩的本质上来理解则是：

文本 token 在处理长文本时确实存在冗余，而图像通过固定的 token 消耗，无论承载多少文字信息，成本都是恒定的。

当然，你可别把 100 万字截成个 16x16 像素的图……

图像输入优势

图像相较于文字输入的优势，Karpathy 给出了几个理由：

信息压缩更高效

论文中提到，通过图像输入可以实现更好的信息压缩，这意味着上下文窗口可以更短，效率更高。

信息流更通用

不只是纯文本，还能处理粗体、彩色文本、任意图像。这种通用性是纯文本 token 无法比拟的。

可以轻松使用双向注意力机制

图像输入天然适合双向注意力，而不是自回归注意力。这比文本处理强大得多。

最关键的是第四点：可以删除分词器！

分词器必须消失

Karpathy 毫不掩饰地表达他对分词器的厌恶。他说：

分词器「丑陋、独立、不是端到端的阶段」。

分词器会「导入」Unicode、字节编码的所有丑陋之处，继承了大量历史包袱，还带来安全和越狱风险（比如续字节攻击）。

更糟糕的是，两个在人眼看来完全相同的字符，在网络内部可能被视为完全不同的 token。

一个微笑表情符号看起来像一个奇怪的 token，而不是一张实际的微笑脸，带着所有像素和所有迁移学习的好处。

Karpathy 的结论是：

分词器必须消失。

架构设想：输入图像，输出文本

Karpathy 提出了一个有趣的架构设想：也许用户消息应该是图像，但解码器（助手回复）仍然是文本。

因为现实地输出像素要困难得多，也不太清楚是否真的需要这样做。

OCR 只是众多有用的「视觉到文本」任务之一。

而「文本到文本」的任务可以变成「视觉到文本」的任务，反之则不行。

Karpathy 还开玩笑说，现在他必须克制住冲动，不要去做一个「只接受图像输入」的 nanochat 版本。见：刚刚，Andrej Karpathy放出大招：开源nanochat项目，仅8000行代码100美元就能训练出一个ChatGPT。

技术争论

Karpathy 的推文发出后，引发了许多网友的热烈讨论。

@yoavgo 提出疑问：

为什么图像可以轻松使用双向注意力，而文本不行？而且，没有分词化后，我们在将输入图像分块成 patches 时，不是还会得到类似甚至更丑陋的东西吗？

Karpathy 回复说：

从原则上讲没有什么能阻止文本使用双向注意力，只是文本通常为了效率而采用自回归训练。他可以想象一个中期训练阶段，使用双向注意力来微调条件信息，比如用户消息（不需要采样的 token）。

但他也承认，这个方面严格来说不完全是关于像素与 token 的对比，更多的是像素通常被编码，而 token 通常被解码（用原始 Transformer 论文的术语）。

@yoavgo 继续追问：

双向训练时需要从某处获得信号/损失，要么通过解码（seq2seq），要么通过掩码和恢复（BERT），这两种方式在样本到信息的比率上都比较差，而且不太容易并行化。但图像如何解决这个问题？

Grok 也提供了补充说明：

双向注意力允许模型同时考虑序列中过去和未来的 token 上下文，就像 BERT 中的编码一样，这对于理解完整上下文而不生成内容很有用。

自回归（单向）注意力，如 GPT 中的，只向后看，能够实现逐步预测以生成文本。

文本 token 通常是自回归的，以实现高效训练和采样。

图像 token（patches）通常使用双向注意力进行整体编码，因为图像本质上不是顺序的。这使得图像在 LLM 中的压缩和处理更加灵活。

马斯克：光子才是终极答案

就在讨论如火如荼时，马斯克也冒出来发了一句话：

长期来看，AI 模型超过 99% 的输入和输出将是光子。没有其他东西能扩展。

在马斯克看来，未来 AI 的主要交互方式将是视觉，无论是输入还是输出。

实践经验

一些开发者分享了他们的实际经验。

Gustavo Nicot 表示，他已经逐渐从纯 OCR 转移出来，不仅是因为成本，还因为多模态 LLM 在上下文质量和语义连续性方面都优于 OCR。

即使有干净的文本提取，直接在图像上工作的 LLM 往往能「看到」文字之外的东西：布局、强调、关系意义。

这是一种不同的理解方式，更接近人类解读书面信息的方式。

Cole McIntosh 也有类似经历。他看到许多定制数据提取管道的工作流程是：通过 OCR 处理 PDF 为文本、嵌入、检索，然后基于检索内容进行结构化输出提取。

他想要更少的步骤，所以采取了不同的方法：

将 PDF 转换为图像，通过 VLM 运行并进行结构化输出。

结果更高效、步骤更少，保留了布局（有时很重要的信息）、结构/完整性，并且整体效果更好。

Phil Trubey 补充道：

基于文本的 LLM 在使用分词器时要处理很多垃圾。人类当然不会像 LLM 那样进行分词。

所以为什么不以人类的方式处理文本呢？通过识别字母的形状以及所有随之而来的排版。

质疑

当然，也有人对 Karpathy 的观点提出质疑。

Mihir 问道：

将渲染后的原始文本作为图像输入 LLM，真的能让它们更好地理解语言吗？还是只是把问题从分词转移到视觉建模？

Mahaoo 作为视觉领域的人，虽然喜欢图像成为一等公民而不是 3-6 个字符的短字符串，但他指出：

将一万字的文本无损压缩成约 100 个 token 显然非常容易，因为每个 token 毕竟是一个非常高维的向量。

如果这是你想要实现的主要目标，通过图像来做就有点像「用左手挠右耳」。

当然，还有其他可以通过这种方式实现的目标（文档格式、字体类型和大小、颜色，甚至字母的形状等，都为人类读者传达信息），对此他完全支持。

未来

早在 GPT 时代，Karpathy 就对 tokenizer 的各种问题颇有微词，这次借 DeepSeek-OCR，也是把这些年积累的思考和不满一口气释放出来了。

从文本到图像，虽然模型能力并非 SOTA，但 DeepSeek 此次的发布，或许将再一次带来对智能的思考方式的转变。

过去我们习惯于把所有东西都转化成文本，因为文本容易处理、容易存储、容易传输。

但在 AI 时代，这些「方便」可能反而成了桎梏。

图像保留了更多原始信息，排版、颜色、布局——这些在纯文本中会丢失的细节，对于理解内容可能至关重要。

若是如马斯克所言，「光子论」真的到来，未来 AI 真的主要通过光子（即视觉）来交互，那么现在基于文本的整个技术栈，都需要重新思考，回炉重造一遍了。

当然，这条路还很长，也有许多不确定性和问题。

如 Mahaoo 所说，用图像处理纯文本在某些场景下确实有点「脱裤子放屁」。

但对于包含复杂格式、多种信息类型的真实世界文档，图像输入的优势就显而易见了。

也许，若干年后再回头看，Karpathy 的此次发言将再次成为一个转折点——

AI 开始从「语言模型」真正进化为「世界模型」，因为——

这个世界，首先是视觉的。

👇

另外，我还用AI 进行了全网的AI 资讯采集，并用AI 进行挑选、审核、翻译、总结后发布到《AGI Hunt》的实时AI 快讯群中。

这是个只有信息、没有感情的 AI 资讯信息流（不是推荐流、不卖课、不讲道理、不教你做人、只提供信息、希望能为你节省一些时间）

欢迎加入！

也欢迎加群和10000+群友交流。

【声明】内容源于网络

AGI Hunt

关注AGI 的沿途风景！

内容 393

粉丝 0

AGI Hunt 关注AGI 的沿途风景！

总阅读22

粉丝0

内容393