New Generation AI Report
New Generation AI Report
【导读】R1论文更新至86页!DeepSeek以纯强化学习实现推理能力跃升,开源模型性能全面对标主流闭源AI
两天前,DeepSeek将DeepSeek-R1技术报告从原22页大幅扩充至86页,内容全面升级为一份开源社区可复现的技术白皮书。
新版报告首次系统公开R1训练全链路细节,涵盖数据配方、基础设施、成本结构、失败分析及安全评估等关键模块,信息密度显著提升。
论文地址:https://arxiv.org/abs/2501.12948
核心技术亮点
- 数据配方:明确数学题2.6万道、代码样本1.7万条、STEM数据22k、逻辑数据15k、通用数据66k;SFT微调数据约80万条
- 基础设施:公开vLLM/DualPipe部署架构图
- 训练成本:R1-Zero耗时198小时(64×8张H800 GPU),总投入约29.4万美元
- 失败复盘:深度解析过程奖励模型(PRM)失效原因
- 模型对比:首次系统对比DS-V3、Claude 3.5、GPT-4o及OpenAI o1系列
- 安全报告:10页独立章节,覆盖多语言、越狱攻击、伦理风险等维度
评测结果显示:DeepSeek-R1在数学推理、代码生成等核心任务上与OpenAI o1-1217基本持平,显著优于GPT-4o、Claude 3.5及o1-mini;在AIME数学竞赛中超越人类平均水平,在Codeforces编程竞赛中击败93.6%参赛者。
人工评估(ChatbotArena ELO)显示,R1在「风格控制」能力上与o1、Gemini-Exp-1206并列第一,验证其响应质量不依赖冗长表述取悦评审。
基于MIT协议的开源模型,在多项基准中达到与主流闭源模型相当水平,且训练成本更低——标志开源AI进入可复制、可验证、可超越的新阶段。
蒸馏:推理能力跨尺度迁移
DeepSeek验证了「教师-学生」蒸馏范式对推理能力迁移的有效性:以R1为教师模型生成高质量推理轨迹,通过监督微调(SFT)向1.5B至70B多尺寸学生模型注入能力,避免小模型重复探索reward空间。
实验证明,同参数量下蒸馏模型全面超越基线;推理能力并非大模型专属,可稳定迁移到中小规模模型,为边缘端部署提供新路径。
智能涌现:R1-Zero自我进化现象
在MATH数据集训练过程中,R1-Zero展现出典型能力涌现特征:
- 简单问题(难度1–3级)准确率迅速达0.90–0.95并保持稳定
- 困难问题(4–5级)准确率持续提升:4级从0.78升至0.95,5级从0.55跃升至0.90
模型反思行为同步增强:wait、mistake、verify、check等反思性词汇使用频次提升5–7倍;「wait」策略在训练8000步后集中出现,印证特定认知模式在训练中期涌现。
安全体系:多层级风险控制机制
DeepSeek-R1构建五维安全评估框架:官方风控体系、六项公开基准测试、内部安全测试集、多语言安全评估、越狱攻击鲁棒性测试。
其风险控制系统采用双阶段机制:
- 关键词初筛:每轮对话后自动匹配预设高危词库
- 模型精审:疑似风险输入拼接「风险审查提示词」交由DeepSeek-V3二次判断,决定是否拦截



在9,330题的50语种安全测试集中,启用风控后R1整体安全得分为85.9%,接近Claude-3.7-Sonnet(88.3%);在违法犯罪与伦理道德类问题上表现优异,但在歧视偏见、有害行为类问题上仍有优化空间。
越狱攻击测试表明:所有模型均面临显著威胁;推理型模型更依赖外部风控;开源模型因透明性更高,越狱风险相对突出。
核心方法论总结
基础模型决定上限
实验表明,较小规模模型作为RL起点无法带来实质性提升;R1-Zero需基于高容量基础模型才能释放纯强化学习的性能增益——模型表达能力是推理能力跃迁的前提。
验证器保障训练质量
奖励信号可靠性直接影响RL效果。当前最优实践为:① 基于规则的奖励模型(RM);② 大模型判别答案与标准答案一致性。二者可有效抑制奖励作弊。
RL与SFT协同不可替代
构建“SFT → RL → 蒸馏”多阶段流水线:SFT奠定能力基线,RL激发推理涌现,蒸馏实现能力泛化。单独依赖任一环节均会导致次优解——PRM与MCTS等探索虽未成功,但为后续方案提供重要经验。

