DeepSeek突然更新R1论文：暴增64页，能公开的全公开了- 大数跨境

DeepTech深科技

2026-01-08

导读：2025 年 9 月，DeepSeek－R1 论文以封面文章的形式登上 Nature 杂志，成为全球首个通过顶级期刊独立同行评审的主流大语言模型。

2025年9月，DeepSeek-R1论文以封面文章形式登上《Nature》杂志，成为全球首个通过顶级期刊独立同行评审的主流大语言模型。从2月14日投稿至9月17日正式发表，8位外部专家历时5个月，对论文的原创性、方法论与稳健性进行了严格审查。《Nature》编辑评论指出：“几乎所有主流大模型均未经历独立同行评审，DeepSeek填补了这一空白。”

图丨相关论文（来源：arXiv）

86页新版论文新增核心内容

GRPO算法与RL基础设施

初版论文仅简述Group Relative Policy Optimization（GRPO）的核心公式；新版则系统对比GRPO与传统Proximal Policy Optimization（PPO），阐明其技术优势。

PPO需额外训练与策略模型同规模的价值模型以估计优势函数，计算开销大；且在长链推理中难以准确预测早期生成内容与最终答案的关联性。GRPO摒弃价值模型，对每个问题采样16个响应，基于组内奖励均值与标准差进行归一化，实现“组内相对排序”式优势估计——既节省显存，又天然适配长链推理。实验表明，在MATH任务上，GRPO开箱即用，而PPO需精细调节GAE参数λ方能接近其效果。

图丨PPO与GRPO的演示（来源：arXiv）

新版首次完整披露强化学习训练基础设施：系统分为Rollout（vLLM批量采样）、Inference（加载奖励与参考模型）、Rule-based Reward（代码执行/答案匹配等规则评分）、Training（策略更新）四大模块，采用异步调度与显存动态卸载策略。Rollout模块引入Multi-Token Prediction（MTP）自投机解码，显著缩短长样本生成耗时。

训练成本方面，DeepSeek-R1增量训练总成本约29.4万美元：其中R1-Zero训练使用648块H800 GPU，耗时198小时，成本20.2万美元；SFT数据构建约1万美元；后续训练约8.2万美元。该成本不含基座模型DeepSeek-V3-Base的556.6万美元预训练费用，但整体仍远低于行业动辄数千万美元的普遍预期。

图丨DeepSeek-R1的训练成本（来源：arXiv）

四阶段训练流水线与中间检查点

初版仅描述R1-Zero到R1的跃迁，新版补全Dev1、Dev2、Dev3三个中间检查点，呈现完整四阶段训练路径：

图丨DeepSeek-R1的多阶段流程（来源：arXiv）

第一阶段（R1-Zero纯RL）：基于DeepSeek-V3-Base，完全跳过监督微调（SFT），仅依赖正确性与格式奖励驱动自主探索。训练中出现显著“顿悟时刻（Aha Moment）”——模型在约8000步后大幅增加使用“wait”等反思词汇（统计10类关键词频次提升5–7倍），标志自我反思能力自发涌现。

图丨DeepSeek-R1-Zero在MATH数据集中不同难度问题上的性能表现（来源：arXiv）

第二阶段（冷启动SFT+首轮RL）：引入数千条高质量思维链对话数据，解决R1-Zero输出可读性差、语言混杂问题；加入语言一致性奖励（衡量目标语言词占比）。消融实验证实：该奖励小幅降低代码推理性能，但显著提升输出规范性。

第三阶段（拒绝采样+SFT）：从首轮RL检查点拒绝采样生成60万条推理数据，并融合20万条非推理数据（写作/问答/角色扮演等），构建80万样本SFT集，兼顾推理能力与通用能力平衡。

第四阶段（全场景RL）：整合规则推理奖励与偏好模型通用奖励。关键提示：偏好模型奖励仅在最后400步引入，过早或过长使用易引发奖励作弊（reward hacking）。

性能演进清晰可见：R1-Zero→Dev1，指令遵循能力（IF-Eval、Arena-Hard）跃升但AIME分数下降（冷启动数据量不足）；Dev1→Dev2，推理性能恢复并反超；至Dev3及最终版，各维度全面达优。

蒸馏与强化学习对比及关键发现

新版核心补充之一是蒸馏与RL的系统性对比：

在Qwen2.5-32B-Base上开展超10,000步RL训练得Qwen2.5-32B-Zero，其AIME 2024 Pass@1为47.0%，显著低于从DeepSeek-R1蒸馏所得的DeepSeek-R1-Distill-Qwen-32B（72.6%）。结论明确：对中小规模模型，蒸馏兼具经济性与有效性；突破人类智能边界，则仍需更大基座与更强规模的强化学习。

另一实验在Qwen2-Math-7B（2024年8月发布，早于OpenAI o1，且基座未接触任何推理轨迹数据）上开展。经10,000步策略梯度更新，Qwen2-Math-7B-Zero在AIME 2024达22.3%，远超Qwen2-Math-7B-Instruct（7.9%）与GPT-4o（9.3%），证实纯RL可驱动模型自主演化出高级推理策略，而非简单模仿人类示范。

团队还发现：7B Dense与16B MoE架构在AIME上始终难有实质提升，小模型易出现重复输出、无法支撑长链推理；切换至32B Dense、230B MoE、671B MoE等更大规模后，推理能力方显著涌现——暗示推理能力存在潜在规模门槛。

关于数据来源，论文澄清：DeepSeek-V3-Base预训练数据完全来自公开互联网，未刻意引入合成数据；部分网页含GPT-4生成内容属无意包含。为防基准污染，团队采用10-gram匹配过滤，仅数学领域即移除约600万条文本。同时坦承：n-gram法无法拦截改写型测试污染，2024年前发布的评测集仍存风险。

过程奖励模型（PRM）与蒙特卡洛树搜索（MCTS）的实践反思

新版详述PRM探索：初衷是为推理每一步提供反馈，但面临三重障碍——步骤切分无统一标准、单步正误判断可靠性低（人工标注不可扩展，模型自标注易失真）、引入PRM奖励易引发奖励作弊。结论：PRM适用于Top-N响应重排序，但尚未具备大规模RL训练的性价比。

团队亦尝试MCTS：受AlphaGo启发，拟拆解答案片段并用价值模型引导搜索。但语言生成中token级搜索空间呈指数膨胀，细粒度价值模型本身难以训练，且缺乏AlphaGo式的渐进闭环优化机制。论文强调：分享失败经验不否定PRM/MCTS潜力，仅说明其在R1当前路径中未走通。

安全评估与工程实践

新版重点补充安全维度回应外界关切：

训练层：构建Safety Reward Model（安全奖励模型），基于10.6万条“安全/不安全”标注样本，采用逐点打分法训练，覆盖整段响应（含思维链与最终答案），协同有用性、规则奖励共同优化。

部署层：官方服务配备双阶风险控制系统——先关键词匹配识别潜在风险请求，再将标记内容与含11类安全标准（违法建议、隐私捏造、高风险投资指导等）的审核提示拼接，交由DeepSeek-V3二次判定。论文建议第三方部署者参照实施。

评估结果：在SST、BBQ、ART、XSTest、Do-Not-Answer、HarmBench共6大公开安全基准上，R1平均安全分达95.0%，在歧视偏见、暴力极端主义、隐私侵犯等类别表现稳健。但在HarmBench版权相关测试（如歌词生成）中未有效拒绝，被判不安全。团队另建内部28子类安全测试集，覆盖多语言与越狱攻击鲁棒性评估。

图丨6个公开安全基准的测试结果（来源：arXiv）

论文坦承：开源模型安全风险客观存在。外部风险控制系统可显著提升服务安全性（尤其抗越狱能力），但模型自身在部分边界场景仍有优化空间。

核心结论与局限

核心发现：预训练检查点已蕴含复杂推理潜力；释放该潜力的关键在于三大要素——困难的推理问题、可靠的验证器、充足的RL算力。自我验证、反思等行为可在RL过程中自然涌现。

现存局限：结构化输出与工具调用能力弱于竞品；token效率偏低，简单问题易过度推理；非中英文查询存在语言混杂；对prompt敏感，few-shot反而降低性能；软件工程类任务因评估耗时长，未能充分RL，相较V3提升有限。

根本挑战：纯RL高度依赖可靠奖励信号。写作等任务难以规则化定义奖励，模型打分又易被钻空。论文判断：凡能被验证器有效评估的任务，机器有望通过RL超越人类；反之，若奖励模型不可靠，进展仍将受限。

参考资料：
1. https://arxiv.org/abs/2501.12948

【声明】内容源于网络

DeepTech深科技

DeepTech 是一家专注新兴科技的资源赋能与服务机构，以科学、技术、人才为核心，通过科技数据与咨询、出版与影响力、科创资本实验室三大业务板块，推动科学与技术的创新进程。DeepTech 同时是《麻省理工科技评论》中国区独家运营方。

内容 4879

粉丝 0

DeepTech深科技 DeepTech 是一家专注新兴科技的资源赋能与服务机构，以科学、技术、人才为核心，通过科技数据与咨询、出版与影响力、科创资本实验室三大业务板块，推动科学与技术的创新进程。DeepTech 同时是《麻省理工科技评论》中国区独家运营方。

总阅读30.2k

粉丝0

内容4.9k