大数跨境
0
0

DeepSeek突然更新R1论文:暴增64页,能公开的全公开了

DeepSeek突然更新R1论文:暴增64页,能公开的全公开了 DeepTech深科技
2026-01-08
6
导读:2025 年 9 月,DeepSeek-R1 论文以封面文章的形式登上 Nature 杂志,成为全球首个通过顶级期刊独立同行评审的主流大语言模型。

2025年9月,DeepSeek-R1论文以封面文章形式登上《Nature》杂志,成为全球首个通过顶级期刊独立同行评审的主流大语言模型。从2月14日投稿至9月17日正式发表,8位外部专家历时5个月,对论文的原创性、方法论与稳健性进行了严格审查。《Nature》编辑评论指出:“几乎所有主流大模型均未经历独立同行评审,DeepSeek填补了这一空白。”

图丨相关论文(来源:arXiv)

86页新版论文新增核心内容

GRPO算法与RL基础设施

初版论文仅简述Group Relative Policy Optimization(GRPO)的核心公式;新版则系统对比GRPO与传统Proximal Policy Optimization(PPO),阐明其技术优势。

PPO需额外训练与策略模型同规模的价值模型以估计优势函数,计算开销大;且在长链推理中难以准确预测早期生成内容与最终答案的关联性。GRPO摒弃价值模型,对每个问题采样16个响应,基于组内奖励均值与标准差进行归一化,实现“组内相对排序”式优势估计——既节省显存,又天然适配长链推理。实验表明,在MATH任务上,GRPO开箱即用,而PPO需精细调节GAE参数λ方能接近其效果。

图丨PPO与GRPO的演示(来源:arXiv)

新版首次完整披露强化学习训练基础设施:系统分为Rollout(vLLM批量采样)、Inference(加载奖励与参考模型)、Rule-based Reward(代码执行/答案匹配等规则评分)、Training(策略更新)四大模块,采用异步调度与显存动态卸载策略。Rollout模块引入Multi-Token Prediction(MTP)自投机解码,显著缩短长样本生成耗时。

训练成本方面,DeepSeek-R1增量训练总成本约29.4万美元:其中R1-Zero训练使用648块H800 GPU,耗时198小时,成本20.2万美元;SFT数据构建约1万美元;后续训练约8.2万美元。该成本不含基座模型DeepSeek-V3-Base的556.6万美元预训练费用,但整体仍远低于行业动辄数千万美元的普遍预期。

图丨DeepSeek-R1的训练成本(来源:arXiv)

四阶段训练流水线与中间检查点

初版仅描述R1-Zero到R1的跃迁,新版补全Dev1、Dev2、Dev3三个中间检查点,呈现完整四阶段训练路径:

图丨DeepSeek-R1的多阶段流程(来源:arXiv)

第一阶段(R1-Zero纯RL):基于DeepSeek-V3-Base,完全跳过监督微调(SFT),仅依赖正确性与格式奖励驱动自主探索。训练中出现显著“顿悟时刻(Aha Moment)”——模型在约8000步后大幅增加使用“wait”等反思词汇(统计10类关键词频次提升5–7倍),标志自我反思能力自发涌现。

图丨DeepSeek-R1-Zero在MATH数据集中不同难度问题上的性能表现(来源:arXiv)

第二阶段(冷启动SFT+首轮RL):引入数千条高质量思维链对话数据,解决R1-Zero输出可读性差、语言混杂问题;加入语言一致性奖励(衡量目标语言词占比)。消融实验证实:该奖励小幅降低代码推理性能,但显著提升输出规范性。

第三阶段(拒绝采样+SFT):从首轮RL检查点拒绝采样生成60万条推理数据,并融合20万条非推理数据(写作/问答/角色扮演等),构建80万样本SFT集,兼顾推理能力与通用能力平衡。

第四阶段(全场景RL):整合规则推理奖励与偏好模型通用奖励。关键提示:偏好模型奖励仅在最后400步引入,过早或过长使用易引发奖励作弊(reward hacking)。

性能演进清晰可见:R1-Zero→Dev1,指令遵循能力(IF-Eval、Arena-Hard)跃升但AIME分数下降(冷启动数据量不足);Dev1→Dev2,推理性能恢复并反超;至Dev3及最终版,各维度全面达优。

蒸馏与强化学习对比及关键发现

新版核心补充之一是蒸馏与RL的系统性对比:

在Qwen2.5-32B-Base上开展超10,000步RL训练得Qwen2.5-32B-Zero,其AIME 2024 Pass@1为47.0%,显著低于从DeepSeek-R1蒸馏所得的DeepSeek-R1-Distill-Qwen-32B(72.6%)。结论明确:对中小规模模型,蒸馏兼具经济性与有效性;突破人类智能边界,则仍需更大基座与更强规模的强化学习。

另一实验在Qwen2-Math-7B(2024年8月发布,早于OpenAI o1,且基座未接触任何推理轨迹数据)上开展。经10,000步策略梯度更新,Qwen2-Math-7B-Zero在AIME 2024达22.3%,远超Qwen2-Math-7B-Instruct(7.9%)与GPT-4o(9.3%),证实纯RL可驱动模型自主演化出高级推理策略,而非简单模仿人类示范。

团队还发现:7B Dense与16B MoE架构在AIME上始终难有实质提升,小模型易出现重复输出、无法支撑长链推理;切换至32B Dense、230B MoE、671B MoE等更大规模后,推理能力方显著涌现——暗示推理能力存在潜在规模门槛。

关于数据来源,论文澄清:DeepSeek-V3-Base预训练数据完全来自公开互联网,未刻意引入合成数据;部分网页含GPT-4生成内容属无意包含。为防基准污染,团队采用10-gram匹配过滤,仅数学领域即移除约600万条文本。同时坦承:n-gram法无法拦截改写型测试污染,2024年前发布的评测集仍存风险。

过程奖励模型(PRM)与蒙特卡洛树搜索(MCTS)的实践反思

新版详述PRM探索:初衷是为推理每一步提供反馈,但面临三重障碍——步骤切分无统一标准、单步正误判断可靠性低(人工标注不可扩展,模型自标注易失真)、引入PRM奖励易引发奖励作弊。结论:PRM适用于Top-N响应重排序,但尚未具备大规模RL训练的性价比。

团队亦尝试MCTS:受AlphaGo启发,拟拆解答案片段并用价值模型引导搜索。但语言生成中token级搜索空间呈指数膨胀,细粒度价值模型本身难以训练,且缺乏AlphaGo式的渐进闭环优化机制。论文强调:分享失败经验不否定PRM/MCTS潜力,仅说明其在R1当前路径中未走通。

安全评估与工程实践

新版重点补充安全维度回应外界关切:

训练层:构建Safety Reward Model(安全奖励模型),基于10.6万条“安全/不安全”标注样本,采用逐点打分法训练,覆盖整段响应(含思维链与最终答案),协同有用性、规则奖励共同优化。

部署层:官方服务配备双阶风险控制系统——先关键词匹配识别潜在风险请求,再将标记内容与含11类安全标准(违法建议、隐私捏造、高风险投资指导等)的审核提示拼接,交由DeepSeek-V3二次判定。论文建议第三方部署者参照实施。

评估结果:在SST、BBQ、ART、XSTest、Do-Not-Answer、HarmBench共6大公开安全基准上,R1平均安全分达95.0%,在歧视偏见、暴力极端主义、隐私侵犯等类别表现稳健。但在HarmBench版权相关测试(如歌词生成)中未有效拒绝,被判不安全。团队另建内部28子类安全测试集,覆盖多语言与越狱攻击鲁棒性评估。

图丨6个公开安全基准的测试结果(来源:arXiv)

论文坦承:开源模型安全风险客观存在。外部风险控制系统可显著提升服务安全性(尤其抗越狱能力),但模型自身在部分边界场景仍有优化空间。

核心结论与局限

核心发现:预训练检查点已蕴含复杂推理潜力;释放该潜力的关键在于三大要素——困难的推理问题、可靠的验证器、充足的RL算力。自我验证、反思等行为可在RL过程中自然涌现。

现存局限:结构化输出与工具调用能力弱于竞品;token效率偏低,简单问题易过度推理;非中英文查询存在语言混杂;对prompt敏感,few-shot反而降低性能;软件工程类任务因评估耗时长,未能充分RL,相较V3提升有限。

根本挑战:纯RL高度依赖可靠奖励信号。写作等任务难以规则化定义奖励,模型打分又易被钻空。论文判断:凡能被验证器有效评估的任务,机器有望通过RL超越人类;反之,若奖励模型不可靠,进展仍将受限。

参考资料:
1. https://arxiv.org/abs/2501.12948

【声明】内容源于网络
0
0
DeepTech深科技
DeepTech 是一家专注新兴科技的资源赋能与服务机构,以科学、技术、人才为核心,通过科技数据与咨询、出版与影响力、科创资本实验室三大业务板块,推动科学与技术的创新进程。DeepTech 同时是《麻省理工科技评论》中国区独家运营方。
内容 4879
粉丝 0
DeepTech深科技 DeepTech 是一家专注新兴科技的资源赋能与服务机构,以科学、技术、人才为核心,通过科技数据与咨询、出版与影响力、科创资本实验室三大业务板块,推动科学与技术的创新进程。DeepTech 同时是《麻省理工科技评论》中国区独家运营方。
总阅读30.2k
粉丝0
内容4.9k