大数跨境
0
0

毫无征兆!DeepSeek R1爆更86页论文,这才是真正的Open

毫无征兆!DeepSeek R1爆更86页论文,这才是真正的Open 新智元
2026-01-08
9


New Generation AI Report

编辑:桃子 KingHZ
【导读】R1论文更新至86页!DeepSeek以纯强化学习实现推理能力跃升,开源模型性能全面对标主流闭源AI

两天前,DeepSeek将DeepSeek-R1技术报告从原22页大幅扩充至86页,内容全面升级为一份开源社区可复现的技术白皮书。

新版报告首次系统公开R1训练全链路细节,涵盖数据配方、基础设施、成本结构、失败分析及安全评估等关键模块,信息密度显著提升。

论文地址:https://arxiv.org/abs/2501.12948

核心技术亮点

  • 数据配方:明确数学题2.6万道、代码样本1.7万条、STEM数据22k、逻辑数据15k、通用数据66k;SFT微调数据约80万条
  • 基础设施:公开vLLM/DualPipe部署架构图
  • 训练成本:R1-Zero耗时198小时(64×8张H800 GPU),总投入约29.4万美元
  • 失败复盘:深度解析过程奖励模型(PRM)失效原因
  • 模型对比:首次系统对比DS-V3、Claude 3.5、GPT-4o及OpenAI o1系列
  • 安全报告:10页独立章节,覆盖多语言、越狱攻击、伦理风险等维度

评测结果显示:DeepSeek-R1在数学推理、代码生成等核心任务上与OpenAI o1-1217基本持平,显著优于GPT-4o、Claude 3.5及o1-mini;在AIME数学竞赛中超越人类平均水平,在Codeforces编程竞赛中击败93.6%参赛者。

人工评估(ChatbotArena ELO)显示,R1在「风格控制」能力上与o1、Gemini-Exp-1206并列第一,验证其响应质量不依赖冗长表述取悦评审。

基于MIT协议的开源模型,在多项基准中达到与主流闭源模型相当水平,且训练成本更低——标志开源AI进入可复制、可验证、可超越的新阶段。

蒸馏:推理能力跨尺度迁移

DeepSeek验证了「教师-学生」蒸馏范式对推理能力迁移的有效性:以R1为教师模型生成高质量推理轨迹,通过监督微调(SFT)向1.5B至70B多尺寸学生模型注入能力,避免小模型重复探索reward空间。

实验证明,同参数量下蒸馏模型全面超越基线;推理能力并非大模型专属,可稳定迁移到中小规模模型,为边缘端部署提供新路径。

智能涌现:R1-Zero自我进化现象

在MATH数据集训练过程中,R1-Zero展现出典型能力涌现特征:

  • 简单问题(难度1–3级)准确率迅速达0.90–0.95并保持稳定
  • 困难问题(4–5级)准确率持续提升:4级从0.78升至0.95,5级从0.55跃升至0.90

模型反思行为同步增强:wait、mistake、verify、check等反思性词汇使用频次提升5–7倍;「wait」策略在训练8000步后集中出现,印证特定认知模式在训练中期涌现。

安全体系:多层级风险控制机制

DeepSeek-R1构建五维安全评估框架:官方风控体系、六项公开基准测试、内部安全测试集、多语言安全评估、越狱攻击鲁棒性测试。

其风险控制系统采用双阶段机制:

  1. 关键词初筛:每轮对话后自动匹配预设高危词库
  2. 模型精审:疑似风险输入拼接「风险审查提示词」交由DeepSeek-V3二次判断,决定是否拦截

在9,330题的50语种安全测试集中,启用风控后R1整体安全得分为85.9%,接近Claude-3.7-Sonnet(88.3%);在违法犯罪与伦理道德类问题上表现优异,但在歧视偏见、有害行为类问题上仍有优化空间。

越狱攻击测试表明:所有模型均面临显著威胁;推理型模型更依赖外部风控;开源模型因透明性更高,越狱风险相对突出。

核心方法论总结

基础模型决定上限

实验表明,较小规模模型作为RL起点无法带来实质性提升;R1-Zero需基于高容量基础模型才能释放纯强化学习的性能增益——模型表达能力是推理能力跃迁的前提。

验证器保障训练质量

奖励信号可靠性直接影响RL效果。当前最优实践为:① 基于规则的奖励模型(RM);② 大模型判别答案与标准答案一致性。二者可有效抑制奖励作弊。

RL与SFT协同不可替代

构建“SFT → RL → 蒸馏”多阶段流水线:SFT奠定能力基线,RL激发推理涌现,蒸馏实现能力泛化。单独依赖任一环节均会导致次优解——PRM与MCTS等探索虽未成功,但为后续方案提供重要经验。

【声明】内容源于网络
0
0
新智元
智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。
内容 14745
粉丝 0
新智元 智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。
总阅读96.5k
粉丝0
内容14.7k