Redis 之父为 DeepSeek 抱不平：美国 AI 圈又为“蒸馏”吵起来了- 大数跨境

首页

Redis 之父为 DeepSeek 抱不平：美国 AI 圈又为“蒸馏”吵起来了

AI前线

2026-06-20

导读：2026 年 6 月 15 日，Redis 之父 Salvatore Sanfilippo，也就是 antirez ，在 X 上发了一串推文

作者 | Tina

2026 年 6 月 15 日，Redis 之父 Salvatore Sanfilippo（antirez）在 X 平台发表了一系列激烈言辞，直指当前 AI 圈关于“中国模型通过 API 蒸馏美国模型”的论调。

他明确表示：“中国模型的强大绝非源于对美国模型的‘蒸馏’。通过 API 进行模型蒸馏在技术上是不可能的。持相反观点者，显然缺乏对机器学习的基本认知。”

这一言论迅速引发热议，将关于技术来源的争论推向新高。背景在于，过去一年间，"DeepSeek、Qwen 等中国模型进步神速是靠套取美国顶级模型回答进行训练”的说法在美国 AI 圈甚嚣尘上。而在 antirez 发声前几日，Anthropic 暂停了部分前沿模型对海外用户的访问，进一步加剧了关于“模型蒸馏”的敏感情绪。

面对争议，这位德高望重的意大利技术专家选择公开澄清事实，驳斥谬误。

Redis 之父的“不可能三角”

antirez 通过长篇推文系统反驳了"API 蒸馏论”，其核心逻辑可归纳为三点：

首先，数据维度缺失。真正的模型蒸馏需要海量带有完整 logits（包括思维链中间输出）的请求数据。而公开 API 仅返回最终文本结果，如同只看到答案却妄想反推完整的推导过程，这在信息量上是匮乏的。

其次，数学逻辑不成立。他比喻道，试图仅凭复杂曲面上的几个离散点来复原整个曲面，在数学上纯属科幻。

最后，信息路径不明。预训练依赖数万亿 token，强化学习（RL）需要探索过程中的奖励信号，而自 o1 模型起，完整的 logits 分布已不再对外提供。若 lacking 这些关键要素，“蒸馏”的信息通道究竟何在？

针对 DeepSeek，antirez 指出其已公开预训练、SFT 及 RL 管线的详细方法，且社区已成功复现部分成果。既然有公开方法论和可验证结果，为何业界仍倾向于相信“抄袭论”而非承认其真实的工程能力？

以下是 antirez 推文的核心观点梳理：

第一，真正的蒸馏需访问海量带完整 logits 的请求，包括思维链全过程。目前 API 输出的思维链多为总结版，无法获取完整过程。

第二，仅凭 API 调用复原模型，如同通过曲面上少数点重建复杂曲面，数学上不可行。

第三，DeepSeek R1 论文中的蒸馏确实提升了目标模型能力，但前提是目标模型已在海量 token 上完成预训练，仅缺“思考”训练。即便经过蒸馏，其能力上限也受限于基座模型。

第四，API 数据仅能为强化学习提供有限的高质量信号，非决定性因素。构建有效的 RL 流程才是工程能力的核心。

第五，即便拥有模型权重，蒸馏依然困难重重。众多中国前沿模型已开源，但包括欧洲在内的多个实验室仍难以复现对齐效果。

第六，DeepSeek 已公开预训练、SFT 和 RL 管线细节并被复现。业界应尊重可验证的工程成果，而非盲从无据猜测。

第七，若坚持“蒸馏论”，请明确指出信息路径：预训练需数万亿 token，RL 需奖励信号，完整 logits 已不再开放。所谓的“信息通道”究竟存在于何处？

antirez 最后总结道：“停止传播此类谬误。即便自称'AI 专家’，若不懂机器学习基本原理，便是在误导公众。”

然而，这一表态使 antirez 自身陷入舆论漩涡。评论区出现大量质疑声，甚至有网友讽刺其违反推特“政治正确”，或质问其是否收受利益。

部分反对者以 Alpaca 和 Vicuna 为例，认为通过 API 收集指令数据进行微调即为蒸馏。事实上，这属于“黑盒蒸馏”或“基于模型输出的训练”，无需 logits 即可实现。而 antirez 所指的“蒸馏”是经典的“白盒蒸馏”，即需要教师模型的完整概率分布。在此严格定义下，仅靠 API 确实无法实现。

“蒸馏”概念的武器化

另有观点引用 Anthropic 报告，指控 DeepSeek 等实验室通过大规模查询窃取数据。然而该报告逻辑存在明显漏洞：普通 AI 产品日均交互量即可达十余万次，技术评测（如 SWE-bench）更会产生百万级调用。将正常业务与评测流量定性为“蒸馏攻击”，显然缺乏说服力。

对此，Redwood Research 首席科学家 Ryan Greenblatt 指出 antirez 对“蒸馏”的定义过于狭隘，认为少量轨迹即可蒸馏 RL 策略。但他同时也承认，这并不直接证明 DeepSeek 的能力源自窃取。

AI2 研究员 Nathan Lambert 则提出更深层的见解：业界正刻意将“蒸馏”一词武器化。原本中性的技术术语被加上了“攻击”二字，营造出类似“私酒酿造”的道德污名，旨在维护既得利益者的竞争优势。

Nathan 指出，若将在其他模型输出上训练称为“蒸馏”，那么 Cursor 对 Kimi 的微调乃至多数人类辅助创作均需被问责。他主张使用“基于模型输出的训练”等中性词汇，避免商业利益裹挟道德框架。

工程师文化：中国 AI 崛起的核心

在这场争论爆发前夕，Linux Foundation AI & Data CTO Matt White 与 Nathan Lambert 曾实地考察中国 AI 实验室。两人的观察高度一致：中国 AI 生态并非依靠“抄作业”生存，而是凭借扎实的工程师文化崛起。

Matt White 描述，中国 AI 团队普遍年轻精简，研究员平均年龄约 25 岁。他们不热衷个人包装，专注于模型性能提升。开源已成为默认选项，DeepSeek 更是因 GRPO 算法及推理训练的创新而赢得全行业尊重。

Nathan Lambert 亦表示，中国 LLM 社区更像协作生态系统而非零和博弈的部落。DeepSeek 展现出的研究品味与执行力令人印象深刻。当前大模型的构建日益依赖全栈优化：从数据清洗、架构细节到 RL 算法实现及推理系统，每个环节的精细化工程都可能带来突破。

中国实验室的快速追赶，并非依赖神秘捷径，而是源于团队在密集、复杂且非光鲜的工程优化上的卓越能力。这也解释了为何"API 蒸馏论”站不住脚。

值得一提的是，antirez 不仅是理论辩手，更是实践者。他近期开源了 DS4 项目，专为 DeepSeek V4 Flash 优化的本地推理引擎，深入解决了 MoE 架构、长上下文、KV Cache 及量化等底层难题。作为系统程序员，他深知模型背后真实的工程含量，绝非单纯的数据堆砌。

综上所述，这场争论的实质超越了技术定义的分歧，折射出舆论场中对“中国进步”的刻板预设。将中国在算力受限下的架构创新与算法突破简单归因为“抄袭”，既无视了事实，也低估了中国工程师文化的真正力量。

参考链接：

https://x.com/antirez/status/2066516853497684342

https://www.interconnects.ai/p/notes-from-inside-chinas-ai-labs

https://huggingface.co/blog/matthew-d-white/ai-in-china

声明：本文为 InfoQ 整理，不代表平台观点，未经许可禁止转载。

【声明】内容源于网络

AI前线

面向AI爱好者、开发者和科学家，提供大模型最新资讯、AI技术分享干货、一线业界实践案例，助你全面拥抱AIGC。

内容 8586

粉丝 0

AI前线面向AI爱好者、开发者和科学家，提供大模型最新资讯、AI技术分享干货、一线业界实践案例，助你全面拥抱AIGC。

总阅读142.1k

粉丝0

内容8.6k