大数跨境
0
0

Karpathy 评 DeepSeek-OCR:分词器必须消失!马斯克:光子才是 AI 的终极语言

Karpathy 评 DeepSeek-OCR:分词器必须消失!马斯克:光子才是 AI 的终极语言 AGI Hunt
2025-10-21
0
导读:文本输入,可能要退出历史舞台了

文本输入,可能要退出历史舞台了。

DeepSeek-OCR 模型发布后,Andrej Karpathy 在 X 上发了篇长文对论文进行了讨论,并抛出了一个大胆的想:

也许所有输入 LLM 的内容,都应该是图像而不是文本。

作为 OpenAI 的创始团队成员、前 Tesla AI 总监,Karpathy 自称是「计算机视觉出身,临时客串自然语言处理的人」。并称:

文本 token 可能是一种浪费,在输入端简直糟糕透了。

我其实也,早就算过这笔账了

其实,早在今年 6 月,我就算过这笔「浪费账」了。

当时我写过一篇文章:分享2个模型省钱大法,在里面分享到了一个省钱黑技巧:用长文本截图替代纯文字让 ChatGPT 回答,成本能直接降低 75%,效果还相差不多

我出了一道题目长为 928 字的数学题,分别用纯文字和截图两种方式调用 API,结果如下:

纯文字输入:796 tokens,花费 $0.0016

截图输入(低分辨率):192 tokens,花费 $0.000388

模型都回答对了,给出了同样的答案,但省了 75% 的钱。

这里的关键是,类似 DeepSeek-OCR 的低分辨率模式,要把图片参数设置为 "detail": "low",这样图片会固定消耗 85 tokens。如果不设置,则会默认按高分辨率计费,反而更贵。

BTW,我这篇文章里还有另一种省钱大法,也可以去看看

而现在,Karpathy 和 DeepSeek-OCR 进一步从技术架构层面论证了「图像输入比文本更高效」,我这也勉强算是……提前预判了吧

不过,省钱只是表象,从信息压缩的本质上来理解则是:

文本 token 在处理长文本时确实存在冗余,而图像通过固定的 token 消耗,无论承载多少文字信息,成本都是恒定的

当然,你可别把 100 万字截成个 16x16 像素的图……

图像输入优势

图像相较于文字输入的优势,Karpathy 给出了几个理由:

信息压缩更高效

论文中提到,通过图像输入可以实现更好的信息压缩,这意味着上下文窗口可以更短,效率更高。

信息流更通用

不只是纯文本,还能处理粗体、彩色文本、任意图像。这种通用性是纯文本 token 无法比拟的。

可以轻松使用双向注意力机制

图像输入天然适合双向注意力,而不是自回归注意力。这比文本处理强大得多。

最关键的是第四点:可以删除分词器

分词器必须消失

Karpathy 毫不掩饰地表达他对分词器的厌恶。他说:

分词器「丑陋、独立、不是端到端的阶段」。

分词器会「导入」Unicode、字节编码的所有丑陋之处,继承了大量历史包袱,还带来安全和越狱风险(比如续字节攻击)。

更糟糕的是,两个在人眼看来完全相同的字符,在网络内部可能被视为完全不同的 token

一个微笑表情符号看起来像一个奇怪的 token,而不是一张实际的微笑脸,带着所有像素和所有迁移学习的好处。

Karpathy 的结论是:

分词器必须消失。

架构设想:输入图像,输出文本

Karpathy 提出了一个有趣的架构设想:也许用户消息应该是图像,但解码器(助手回复)仍然是文本。

因为现实地输出像素要困难得多,也不太清楚是否真的需要这样做。

OCR 只是众多有用的「视觉到文本」任务之一。

而「文本到文本」的任务可以变成「视觉到文本」的任务,反之则不行。

Karpathy 还开玩笑说,现在他必须克制住冲动,不要去做一个「只接受图像输入」的 nanochat 版本。见:刚刚,Andrej Karpathy放出大招:开源nanochat项目,仅8000行代码100美元就能训练出一个ChatGPT

技术争论

Karpathy 的推文发出后,引发了许多网友的热烈讨论。

@yoavgo 提出疑问:

为什么图像可以轻松使用双向注意力,而文本不行?而且,没有分词化后,我们在将输入图像分块成 patches 时,不是还会得到类似甚至更丑陋的东西吗?

Karpathy 回复说:

从原则上讲没有什么能阻止文本使用双向注意力,只是文本通常为了效率而采用自回归训练。他可以想象一个中期训练阶段,使用双向注意力来微调条件信息,比如用户消息(不需要采样的 token)。

但他也承认,这个方面严格来说不完全是关于像素与 token 的对比,更多的是像素通常被编码,而 token 通常被解码(用原始 Transformer 论文的术语)。

@yoavgo 继续追问:

双向训练时需要从某处获得信号/损失,要么通过解码(seq2seq),要么通过掩码和恢复(BERT),这两种方式在样本到信息的比率上都比较差,而且不太容易并行化。但图像如何解决这个问题?

Grok 也提供了补充说明:

双向注意力允许模型同时考虑序列中过去和未来的 token 上下文,就像 BERT 中的编码一样,这对于理解完整上下文而不生成内容很有用。

自回归(单向)注意力,如 GPT 中的,只向后看,能够实现逐步预测以生成文本。

文本 token 通常是自回归的,以实现高效训练和采样。

图像 token(patches)通常使用双向注意力进行整体编码,因为图像本质上不是顺序的。这使得图像在 LLM 中的压缩和处理更加灵活。

马斯克:光子才是终极答案

就在讨论如火如荼时,马斯克也冒出来发了一句话:

长期来看,AI 模型超过 99% 的输入和输出将是光子。没有其他东西能扩展。

在马斯克看来,未来 AI 的主要交互方式将是视觉,无论是输入还是输出。

实践经验

一些开发者分享了他们的实际经验。

Gustavo Nicot 表示,他已经逐渐从纯 OCR 转移出来,不仅是因为成本,还因为多模态 LLM 在上下文质量和语义连续性方面都优于 OCR

即使有干净的文本提取,直接在图像上工作的 LLM 往往能「看到」文字之外的东西:布局强调关系意义

这是一种不同的理解方式,更接近人类解读书面信息的方式。

Cole McIntosh 也有类似经历。他看到许多定制数据提取管道的工作流程是:通过 OCR 处理 PDF 为文本、嵌入、检索,然后基于检索内容进行结构化输出提取。

他想要更少的步骤,所以采取了不同的方法:

将 PDF 转换为图像,通过 VLM 运行并进行结构化输出

结果更高效、步骤更少,保留了布局(有时很重要的信息)、结构/完整性,并且整体效果更好。

Phil Trubey 补充道:

基于文本的 LLM 在使用分词器时要处理很多垃圾。人类当然不会像 LLM 那样进行分词。

所以为什么不以人类的方式处理文本呢?通过识别字母的形状以及所有随之而来的排版

质疑

当然,也有人对 Karpathy 的观点提出质疑。

Mihir 问道:

将渲染后的原始文本作为图像输入 LLM,真的能让它们更好地理解语言吗?还是只是把问题从分词转移到视觉建模

Mahaoo 作为视觉领域的人,虽然喜欢图像成为一等公民而不是 3-6 个字符的短字符串,但他指出:

将一万字的文本无损压缩成约 100 个 token 显然非常容易,因为每个 token 毕竟是一个非常高维的向量

如果这是你想要实现的主要目标,通过图像来做就有点像「用左手挠右耳」。

当然,还有其他可以通过这种方式实现的目标(文档格式、字体类型和大小、颜色,甚至字母的形状等,都为人类读者传达信息),对此他完全支持。

未来

早在 GPT 时代,Karpathy 就对 tokenizer 的各种问题颇有微词,这次借 DeepSeek-OCR,也是把这些年积累的思考和不满一口气释放出来了。

从文本到图像,虽然模型能力并非 SOTA,但 DeepSeek 此次的发布,或许将再一次带来对智能的思考方式的转变

过去我们习惯于把所有东西都转化成文本,因为文本容易处理、容易存储、容易传输。

但在 AI 时代,这些「方便」可能反而成了桎梏。

图像保留了更多原始信息,排版、颜色、布局——这些在纯文本中会丢失的细节,对于理解内容可能至关重要。

若是如马斯克所言,「光子论」真的到来,未来 AI 真的主要通过光子(即视觉)来交互,那么现在基于文本的整个技术栈,都需要重新思考,回炉重造一遍了。

当然,这条路还很长,也有许多不确定性和问题。

如 Mahaoo 所说,用图像处理纯文本在某些场景下确实有点「脱裤子放屁」。

但对于包含复杂格式、多种信息类型的真实世界文档,图像输入的优势就显而易见了。

也许,若干年后再回头看,Karpathy 的此次发言将再次成为一个转折点——

AI 开始从「语言模型」真正进化为「世界模型」,因为——

这个世界,首先是视觉的。

👇

👇

👇

另外,我还用AI 进行了全网的AI 资讯采集,并用AI 进行挑选、审核、翻译、总结后发布到《AGI Hunt》的实时AI 快讯群中。

这是个只有信息没有感情的 AI 资讯信息流(不是推荐流、不卖课、不讲道理、不教你做人、只提供信息、希望能为你节省一些时间)

欢迎加入!

也欢迎加群和10000+群友交流。


【声明】内容源于网络
0
0
AGI Hunt
关注AGI 的沿途风景!
内容 393
粉丝 0
AGI Hunt 关注AGI 的沿途风景!
总阅读22
粉丝0
内容393