>

毫无征兆！DeepSeek R1爆更86页论文，这才是真正的Open

>

0

0

毫无征兆！DeepSeek R1爆更86页论文，这才是真正的Open

毫无征兆！DeepSeek R1爆更86页论文，这才是真正的Open

新智元

2026-01-08

9

New Generation AI Report

编辑：桃子 KingHZ

【导读】R1论文更新至86页！DeepSeek以纯强化学习实现推理能力跃升，开源模型性能全面对标主流闭源AI

两天前，DeepSeek将DeepSeek-R1技术报告从原22页大幅扩充至86页，内容全面升级为一份开源社区可复现的技术白皮书。

新版报告首次系统公开R1训练全链路细节，涵盖数据配方、基础设施、成本结构、失败分析及安全评估等关键模块，信息密度显著提升。

论文地址：https://arxiv.org/abs/2501.12948

核心技术亮点

数据配方：明确数学题2.6万道、代码样本1.7万条、STEM数据22k、逻辑数据15k、通用数据66k；SFT微调数据约80万条
基础设施：公开vLLM/DualPipe部署架构图
训练成本：R1-Zero耗时198小时（64×8张H800 GPU），总投入约29.4万美元
失败复盘：深度解析过程奖励模型（PRM）失效原因
模型对比：首次系统对比DS-V3、Claude 3.5、GPT-4o及OpenAI o1系列
安全报告：10页独立章节，覆盖多语言、越狱攻击、伦理风险等维度

评测结果显示：DeepSeek-R1在数学推理、代码生成等核心任务上与OpenAI o1-1217基本持平，显著优于GPT-4o、Claude 3.5及o1-mini；在AIME数学竞赛中超越人类平均水平，在Codeforces编程竞赛中击败93.6%参赛者。

人工评估（ChatbotArena ELO）显示，R1在「风格控制」能力上与o1、Gemini-Exp-1206并列第一，验证其响应质量不依赖冗长表述取悦评审。

基于MIT协议的开源模型，在多项基准中达到与主流闭源模型相当水平，且训练成本更低——标志开源AI进入可复制、可验证、可超越的新阶段。

蒸馏：推理能力跨尺度迁移

DeepSeek验证了「教师-学生」蒸馏范式对推理能力迁移的有效性：以R1为教师模型生成高质量推理轨迹，通过监督微调（SFT）向1.5B至70B多尺寸学生模型注入能力，避免小模型重复探索reward空间。

实验证明，同参数量下蒸馏模型全面超越基线；推理能力并非大模型专属，可稳定迁移到中小规模模型，为边缘端部署提供新路径。

智能涌现：R1-Zero自我进化现象

在MATH数据集训练过程中，R1-Zero展现出典型能力涌现特征：

简单问题（难度1–3级）准确率迅速达0.90–0.95并保持稳定
困难问题（4–5级）准确率持续提升：4级从0.78升至0.95，5级从0.55跃升至0.90

模型反思行为同步增强：wait、mistake、verify、check等反思性词汇使用频次提升5–7倍；「wait」策略在训练8000步后集中出现，印证特定认知模式在训练中期涌现。

安全体系：多层级风险控制机制

DeepSeek-R1构建五维安全评估框架：官方风控体系、六项公开基准测试、内部安全测试集、多语言安全评估、越狱攻击鲁棒性测试。

其风险控制系统采用双阶段机制：

关键词初筛：每轮对话后自动匹配预设高危词库
模型精审：疑似风险输入拼接「风险审查提示词」交由DeepSeek-V3二次判断，决定是否拦截

在9,330题的50语种安全测试集中，启用风控后R1整体安全得分为85.9%，接近Claude-3.7-Sonnet（88.3%）；在违法犯罪与伦理道德类问题上表现优异，但在歧视偏见、有害行为类问题上仍有优化空间。

越狱攻击测试表明：所有模型均面临显著威胁；推理型模型更依赖外部风控；开源模型因透明性更高，越狱风险相对突出。

核心方法论总结

基础模型决定上限

实验表明，较小规模模型作为RL起点无法带来实质性提升；R1-Zero需基于高容量基础模型才能释放纯强化学习的性能增益——模型表达能力是推理能力跃迁的前提。

验证器保障训练质量

奖励信号可靠性直接影响RL效果。当前最优实践为：① 基于规则的奖励模型（RM）；② 大模型判别答案与标准答案一致性。二者可有效抑制奖励作弊。

RL与SFT协同不可替代

构建“SFT → RL → 蒸馏”多阶段流水线：SFT奠定能力基线，RL激发推理涌现，蒸馏实现能力泛化。单独依赖任一环节均会导致次优解——PRM与MCTS等探索虽未成功，但为后续方案提供重要经验。

【声明】内容源于网络

0

0

新智元

智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响，领航中国新智能时代。

内容 14745

粉丝 0

新智元智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响，领航中国新智能时代。

总阅读96.5k

粉丝0

内容14.7k