大模型的「流行病学」：为什么 Deepseek V3.1 会随机输出「极」字？- 大数跨境

首页

大模型的「流行病学」：为什么 Deepseek V3.1 会随机输出「极」字？

知乎AI先行者

2025-08-27

导读：AI 时代的锟斤拷烫烫烫

今日话题：DS V3.1 输出 Token 会被随机替换为「极」？

上周六，知友@Fun10165 在使用 Deepseek V3.1 模型整理物理试卷时发现输出中莫名其妙出现了一些「极」字；在调用官方 API 修复的过程中这种情况再次复现。提问后，不少知友表示自己也遇到过类似的「极」字。

这种 AI 时代的锟斤拷烫烫烫是怎么形成的？↓

答主@Fun10165

8月24日发布于知乎

我是昨天在调用 VolcEngine DeepSeek V3.1 帮我整理一份物理试卷的时候发现的问题。我的用户输入包含了「极板」这些词。

问题就从这里开始。

输入1

输入2

输出1

输出2

嗯……这给调成啥了。

但是我当时没把这个当回事，以为是 Cherry Studio 没调好设置导致的。今天我又玩了玩 Trae ，试一下它的 Agent 能力。结果还是有一些随机出现的「极」。

没办法，只能调一下官方 API 修复这个问题了。结果在修复的过程中又出现了这个问题。

输入，可以看到原文这里没有「极」字。但是输入的其他地方有错误的「极」字。

在原先没有「极」字的地方出现了「极」字

以下是我的 User Prompt：

https://paste.ubuntu.com/p/Fy6mhygWTh/

实测，官方网页/API 能复现，概率不高，但多试几次就能出来。VolcEngine API 复现概率非常高。

同时，如果将错误搀入的字符「极」字改为其他的字符，则官方 API 出问题概率下降，但 VolcEngine API 出问题概率仍非常高。

答主@hzwer 黄哲威

8月26日发布于知乎

顺便，他正在招人

竟然有这么合适我答的题，我用小模型 + 开源数据蒸馏 R1 的时候也见到过类似 bug。

大模型做编程题的时候会有一种恶性 pattern，是枚举数列，比如说「素数表 2，3，5，7 … 」无限枚举。R1-0528 这个模型比较神奇，它会在枚举一段后停下来，变成「素数表 2，3，5，7 … 997，极长的列表」。

这个极字经常出现在大量恶性重复之后，切回正常的推理过程。

也有「90000000...0000 极大的数字」这种。在 thinking 末尾循环出不来的时候，会见到突然蹦出一个极字然后 </think> 终止，触发率千分之一吧。

我肉眼看了很多 R1 输出发现的（其实不是很大工作量，只要把 R1 超长的 response 拿出来扫几眼，就能看出很多问题了，还有大面积空白字符，一直 But + 短句重复，或者到 thinking 末尾出的英文字都破碎的各种问题）我认为原本是 sft 数据合成甚至是构造预训练数据的时候没洗干净引入了「极长的数组」这种怪东西（从 R1 的行为看，似乎大量使用了 RAG 方法来造难题的解答），然后 RL 的时候模型直接把这个字当某种终止符或者语言切换标记使用了。

如果 R1 迭代的时候没洗干净数据，模型自蒸馏传染到正常的输出过程里也正常。

答主@董不懂在摸鱼的回答

8月27日发布于知乎

我看了国内外论坛上各种分析 DeepSeek V3.1 输出 Token 被「极」随即替换的问题，大概有三种或者更多可能的原因，老董叔觉得都有一定可能性，但其实都不确定：

1. 第一种就是高赞的分析，因为涉及到大量列举或者数字长度过长需要截断 clip 的训练预料时，会出现极，这时候从含义上来说，对应英文单词是extreme，于是模型把极学成了某种特殊的 special token，这可能是一种原因，但不确定；

2. 另一种情况，也有一定可能性问题是出现 tokenizer 上，Reddit 论坛上也提到了。

我打开官方 huggingface 开源给出的 tokenizer，可以查出来对应的 index，极(token id 2577) 距离省略号…………….(token id 2576) 很近，众所周知 DeepSeek 会竭尽全力进行各种工程优化，特别是量化，以及可能的 moe bug，都可能会造成 Softmax 计算中发生了精度溢出，于是解码对应 token index 时整岔劈了……