今日话题:DS V3.1 输出 Token 会被随机替换为「极」?
上周六,知友@Fun10165 在使用 Deepseek V3.1 模型整理物理试卷时发现输出中莫名其妙出现了一些「极」字;在调用官方 API 修复的过程中这种情况再次复现。提问后,不少知友表示自己也遇到过类似的「极」字。
这种 AI 时代的锟斤拷烫烫烫是怎么形成的?↓
答主@Fun10165
我是昨天在调用 VolcEngine DeepSeek V3.1 帮我整理一份物理试卷的时候发现的问题。我的用户输入包含了「极板」这些词。
问题就从这里开始。
输入1
输入2
输出1
输出2
嗯……这给调成啥了。
但是我当时没把这个当回事,以为是 Cherry Studio 没调好设置导致的。今天我又玩了玩 Trae ,试一下它的 Agent 能力。结果还是有一些随机出现的「极」。
没办法,只能调一下官方 API 修复这个问题了。结果在修复的过程中又出现了这个问题。
输入,可以看到原文这里没有「极」字。但是输入的其他地方有错误的「极」字。
在原先没有「极」字的地方出现了「极」字
以下是我的 User Prompt:
https://paste.ubuntu.com/p/Fy6mhygWTh/
实测,官方网页/API 能复现,概率不高,但多试几次就能出来。VolcEngine API 复现概率非常高。
同时,如果将错误搀入的字符「极」字改为其他的字符,则官方 API 出问题概率下降,但 VolcEngine API 出问题概率仍非常高。
答主@hzwer 黄哲威
竟然有这么合适我答的题,我用小模型 + 开源数据蒸馏 R1 的时候也见到过类似 bug。
大模型做编程题的时候会有一种恶性 pattern,是枚举数列,比如说「素数表 2,3,5,7 … 」 无限枚举。R1-0528 这个模型比较神奇,它会在枚举一段后停下来,变成 「素数表 2,3,5,7 … 997,极长的列表」。
这个极字经常出现在大量恶性重复之后,切回正常的推理过程。
也有「90000000...0000 极大的数字」这种。在 thinking 末尾循环出不来的时候,会见到突然蹦出一个极字然后 </think> 终止,触发率千分之一吧。
我肉眼看了很多 R1 输出发现的(其实不是很大工作量,只要把 R1 超长的 response 拿出来扫几眼,就能看出很多问题了,还有大面积空白字符,一直 But + 短句重复,或者到 thinking 末尾出的英文字都破碎的各种问题)我认为原本是 sft 数据合成甚至是构造预训练数据的时候没洗干净引入了「极长的数组」这种怪东西(从 R1 的行为看,似乎大量使用了 RAG 方法来造难题的解答),然后 RL 的时候模型直接把这个字当某种终止符或者语言切换标记使用了。
如果 R1 迭代的时候没洗干净数据,模型自蒸馏传染到正常的输出过程里也正常。
答主@董不懂在摸鱼的回答
我看了国内外论坛上各种分析 DeepSeek V3.1 输出 Token 被「极」随即替换的问题,大概有三种或者更多可能的原因,老董叔觉得都有一定可能性,但其实都不确定:
1. 第一种就是高赞的分析,因为涉及到大量列举或者数字长度过长需要截断 clip 的训练预料时,会出现极,这时候从含义上来说,对应英文单词是extreme,于是模型把极学成了某种特殊的 special token,这可能是一种原因,但不确定;
2. 另一种情况,也有一定可能性问题是出现 tokenizer 上,Reddit 论坛上也提到了。
我打开官方 huggingface 开源给出的 tokenizer,可以查出来对应的 index,极(token id 2577) 距离省略号…………….(token id 2576) 很近,众所周知 DeepSeek 会竭尽全力进行各种工程优化,特别是量化,以及可能的 moe bug,都可能会造成 Softmax 计算中发生了精度溢出,于是解码对应 token index 时整岔劈了……
3. 第三种可能的原因是我看很多人提到DeepSeek输出内容中「极速赛车」之类的内容,总是会多次出现,哈哈哈,我没有专门花时间去复现过,如果确实如此,那这也有一定概率,就是典型的预训练 pretraining 中语料大量污染问题了,当然这也会造成极这个 token 出现频率大增。
4. 我看还有第四种猜测的原因,等有空了补充一下,未完待续—— 我们不妨试试无奖竞猜,大家把自己认为可能的原因打在评论区,等 DeepSeek 官方 debug 排查验证之后,我们再来揭晓答案……
知友讨论
@王阳:
何尝不是一种 latent reasoning
@木正小强:
感觉像被注入了,我遇到过好多次 "极速赛车网 "这几个字
@张睿杰:
这么看来,根据道金斯的定义,bad case 或者脏数据已经成为了某种拥有自我复制能力的 meme 或者病毒,可以通过感染一个模型 A,传播到另一个蒸馏模型 A 的模型 B,实现某种程度的大模型流行病学
@还是不注名好:
如果一个问题,官网频率低,第三方频率高。而且不是所有第三方平台都高频出现,而是只在部分第三方平台的部署高频出现,但却有一致性。
那很明显,是有些第三方平台给你在精度上量化了。
阅读更多
🚀 AI 产品扶持计划:
知乎为AI产品提供定制宣发支持,了解/报名请戳:知乎「AI 新品非正式发布现场」扶持计划
🚀 知乎 AI 社群:
如果你是泛 AI 爱好者,对 AI 资讯感兴趣,并愿意认真测评、为开发者反馈真实意见或交流沟通。欢迎扫码加入知乎 AI 社群↓,我们将不定时送上 AI 热点问答和产品测试活动。
知乎AI交流群
让一部分开发者先走起来
🚀 知乎科技账号正式登陆 X:
👉 https://x.com/ZhihuFrontier,聚焦「技术 × 观点」的跨语境对话
🚀「进击的具身智能」圆桌欢迎围观:
👉 在知乎搜索「机器人」或「具身智能」即可围观圆桌,优质回答会有额外流量扶持。

