2025年9月,DeepSeek-R1论文以封面文章形式登上《Nature》杂志,成为全球首个通过顶级期刊独立同行评审的主流大语言模型。从2月14日投稿至9月17日正式发表,8位外部专家历时5个月,对论文的原创性、方法论与稳健性进行了严格审查。《Nature》编辑评论指出:“几乎所有主流大模型均未经历独立同行评审,DeepSeek填补了这一空白。”
图丨相关论文(来源:arXiv)
86页新版论文新增核心内容
GRPO算法与RL基础设施
初版论文仅简述Group Relative Policy Optimization(GRPO)的核心公式;新版则系统对比GRPO与传统Proximal Policy Optimization(PPO),阐明其技术优势。
PPO需额外训练与策略模型同规模的价值模型以估计优势函数,计算开销大;且在长链推理中难以准确预测早期生成内容与最终答案的关联性。GRPO摒弃价值模型,对每个问题采样16个响应,基于组内奖励均值与标准差进行归一化,实现“组内相对排序”式优势估计——既节省显存,又天然适配长链推理。实验表明,在MATH任务上,GRPO开箱即用,而PPO需精细调节GAE参数λ方能接近其效果。
图丨PPO与GRPO的演示(来源:arXiv)
新版首次完整披露强化学习训练基础设施:系统分为Rollout(vLLM批量采样)、Inference(加载奖励与参考模型)、Rule-based Reward(代码执行/答案匹配等规则评分)、Training(策略更新)四大模块,采用异步调度与显存动态卸载策略。Rollout模块引入Multi-Token Prediction(MTP)自投机解码,显著缩短长样本生成耗时。
训练成本方面,DeepSeek-R1增量训练总成本约29.4万美元:其中R1-Zero训练使用648块H800 GPU,耗时198小时,成本20.2万美元;SFT数据构建约1万美元;后续训练约8.2万美元。该成本不含基座模型DeepSeek-V3-Base的556.6万美元预训练费用,但整体仍远低于行业动辄数千万美元的普遍预期。
图丨DeepSeek-R1的训练成本(来源:arXiv)
四阶段训练流水线与中间检查点
初版仅描述R1-Zero到R1的跃迁,新版补全Dev1、Dev2、Dev3三个中间检查点,呈现完整四阶段训练路径:
图丨DeepSeek-R1的多阶段流程(来源:arXiv)
第一阶段(R1-Zero纯RL):基于DeepSeek-V3-Base,完全跳过监督微调(SFT),仅依赖正确性与格式奖励驱动自主探索。训练中出现显著“顿悟时刻(Aha Moment)”——模型在约8000步后大幅增加使用“wait”等反思词汇(统计10类关键词频次提升5–7倍),标志自我反思能力自发涌现。
图丨DeepSeek-R1-Zero在MATH数据集中不同难度问题上的性能表现(来源:arXiv)
第二阶段(冷启动SFT+首轮RL):引入数千条高质量思维链对话数据,解决R1-Zero输出可读性差、语言混杂问题;加入语言一致性奖励(衡量目标语言词占比)。消融实验证实:该奖励小幅降低代码推理性能,但显著提升输出规范性。
第三阶段(拒绝采样+SFT):从首轮RL检查点拒绝采样生成60万条推理数据,并融合20万条非推理数据(写作/问答/角色扮演等),构建80万样本SFT集,兼顾推理能力与通用能力平衡。
第四阶段(全场景RL):整合规则推理奖励与偏好模型通用奖励。关键提示:偏好模型奖励仅在最后400步引入,过早或过长使用易引发奖励作弊(reward hacking)。
性能演进清晰可见:R1-Zero→Dev1,指令遵循能力(IF-Eval、Arena-Hard)跃升但AIME分数下降(冷启动数据量不足);Dev1→Dev2,推理性能恢复并反超;至Dev3及最终版,各维度全面达优。
蒸馏与强化学习对比及关键发现
新版核心补充之一是蒸馏与RL的系统性对比:
在Qwen2.5-32B-Base上开展超10,000步RL训练得Qwen2.5-32B-Zero,其AIME 2024 Pass@1为47.0%,显著低于从DeepSeek-R1蒸馏所得的DeepSeek-R1-Distill-Qwen-32B(72.6%)。结论明确:对中小规模模型,蒸馏兼具经济性与有效性;突破人类智能边界,则仍需更大基座与更强规模的强化学习。
另一实验在Qwen2-Math-7B(2024年8月发布,早于OpenAI o1,且基座未接触任何推理轨迹数据)上开展。经10,000步策略梯度更新,Qwen2-Math-7B-Zero在AIME 2024达22.3%,远超Qwen2-Math-7B-Instruct(7.9%)与GPT-4o(9.3%),证实纯RL可驱动模型自主演化出高级推理策略,而非简单模仿人类示范。
团队还发现:7B Dense与16B MoE架构在AIME上始终难有实质提升,小模型易出现重复输出、无法支撑长链推理;切换至32B Dense、230B MoE、671B MoE等更大规模后,推理能力方显著涌现——暗示推理能力存在潜在规模门槛。
关于数据来源,论文澄清:DeepSeek-V3-Base预训练数据完全来自公开互联网,未刻意引入合成数据;部分网页含GPT-4生成内容属无意包含。为防基准污染,团队采用10-gram匹配过滤,仅数学领域即移除约600万条文本。同时坦承:n-gram法无法拦截改写型测试污染,2024年前发布的评测集仍存风险。
过程奖励模型(PRM)与蒙特卡洛树搜索(MCTS)的实践反思
新版详述PRM探索:初衷是为推理每一步提供反馈,但面临三重障碍——步骤切分无统一标准、单步正误判断可靠性低(人工标注不可扩展,模型自标注易失真)、引入PRM奖励易引发奖励作弊。结论:PRM适用于Top-N响应重排序,但尚未具备大规模RL训练的性价比。
团队亦尝试MCTS:受AlphaGo启发,拟拆解答案片段并用价值模型引导搜索。但语言生成中token级搜索空间呈指数膨胀,细粒度价值模型本身难以训练,且缺乏AlphaGo式的渐进闭环优化机制。论文强调:分享失败经验不否定PRM/MCTS潜力,仅说明其在R1当前路径中未走通。
安全评估与工程实践
新版重点补充安全维度回应外界关切:
训练层:构建Safety Reward Model(安全奖励模型),基于10.6万条“安全/不安全”标注样本,采用逐点打分法训练,覆盖整段响应(含思维链与最终答案),协同有用性、规则奖励共同优化。
部署层:官方服务配备双阶风险控制系统——先关键词匹配识别潜在风险请求,再将标记内容与含11类安全标准(违法建议、隐私捏造、高风险投资指导等)的审核提示拼接,交由DeepSeek-V3二次判定。论文建议第三方部署者参照实施。
评估结果:在SST、BBQ、ART、XSTest、Do-Not-Answer、HarmBench共6大公开安全基准上,R1平均安全分达95.0%,在歧视偏见、暴力极端主义、隐私侵犯等类别表现稳健。但在HarmBench版权相关测试(如歌词生成)中未有效拒绝,被判不安全。团队另建内部28子类安全测试集,覆盖多语言与越狱攻击鲁棒性评估。
图丨6个公开安全基准的测试结果(来源:arXiv)
论文坦承:开源模型安全风险客观存在。外部风险控制系统可显著提升服务安全性(尤其抗越狱能力),但模型自身在部分边界场景仍有优化空间。
核心结论与局限
核心发现:预训练检查点已蕴含复杂推理潜力;释放该潜力的关键在于三大要素——困难的推理问题、可靠的验证器、充足的RL算力。自我验证、反思等行为可在RL过程中自然涌现。
现存局限:结构化输出与工具调用能力弱于竞品;token效率偏低,简单问题易过度推理;非中英文查询存在语言混杂;对prompt敏感,few-shot反而降低性能;软件工程类任务因评估耗时长,未能充分RL,相较V3提升有限。
根本挑战:纯RL高度依赖可靠奖励信号。写作等任务难以规则化定义奖励,模型打分又易被钻空。论文判断:凡能被验证器有效评估的任务,机器有望通过RL超越人类;反之,若奖励模型不可靠,进展仍将受限。
参考资料:
1. https://arxiv.org/abs/2501.12948

