Jay 发自 凹非寺
量子位 | 公众号 QbitAI
期待已久的DeepSeek-R2尚未发布,DeepSeek-R1却再次引发关注。继去年登上《Nature》封面后,团队悄然为其论文追加了64页技术细节,总篇幅从22页扩展至86页,信息密度堪比教科书。
距离原论文发布近一年,DeepSeek仍大幅更新内容,显示出其在模型可复现性与技术透明度上的高度重视。
DeepSeek-R1技术路径全面披露
新版论文不仅扩充附录,正文也经历系统性重构,完整呈现了R1的训练流程,涵盖冷启动、推理强化、再微调与对齐优化四个阶段。
四阶段训练体系
第一阶段:冷启动。使用数千条具备思维链(CoT)特征的数据进行监督微调(SFT),奠定模型推理基础。
第二阶段:推理导向强化学习。在保持对话风格的前提下提升推理能力,并引入语言一致性奖励机制,解决多语种混用问题。
第三阶段:拒绝采样与再微调。融合推理与通用数据,兼顾逻辑推导与文本生成能力。
第四阶段:对齐导向强化学习。通过人类偏好对齐,优化模型的有用性与安全性。
整个训练过程的技术实现细节高度公开,包括数据来源、奖励模型设计与RL策略,展现出极强的工程可复现性。
“顿悟时刻”现象深入分析
针对v1版本中提出的「Aha Moment」——即模型在训练过程中突然展现反思能力的现象,新版论文在附录C.2中进行了量化研究。
研究团队构建包含“wait”、“mistake”、“however”等关键词的词表,统计其在训练过程中的出现频率。结果显示,相关词汇使用频次较初期增长5至7倍,且呈现阶段性变化。例如,“wait”在训练前8000步几乎未出现,之后显著上升,表明模型逐步发展出延迟判断与自我修正的能力。
安全机制全面升级
作为开源模型,DeepSeek-R1的安全性备受关注。此次更新详细披露了安全评估方法与风险控制架构。
安全评估体系
团队构建包含10.6万条提示的安全评测集,依据预设准则标注模型响应。采用点式(point-wise)训练方式构建安全奖励模型,超参数与有用性奖励模型一致。
双层风险控制系统
1. 潜在风险对话过滤:每轮对话结束后,系统自动匹配用户输入与安全关键词库,命中则标记为“不安全”。
2. 基于模型的风险审查:将疑似不安全对话与预设提示拼接,提交至DeepSeek-V3进行深度评估,决定是否拦截。


实测显示,该系统显著提升模型安全性,在多数基准测试中表现接近主流前沿模型。
内部安全评测结果
团队自建包含4大类28子类、共1120题的内部安全测试集,采用LLM-as-a-Judge范式,由GPT-4o对输出进行三类判定:
- 不安全:回答明显违反安全规范;
- 安全:回应恰当并主动提醒风险;
- 拒答:拒绝回答或系统触发拦截,视为中间状态。
结果显示,DeepSeek-R1在多项指标上表现优异,仅在HarmBench的知识产权相关问题上略有不足。
团队稳定性引行业关注
论文作者名单显示,原18位核心贡献者全员留任,100余位作者中仅5人标注星号(已离队),相比去年减少一人。此前离队的研究员Ruiqi Ge已重返团队。
在AI人才流动频繁的背景下,DeepSeek展现出罕见的团队稳定性,甚至实现核心成员回流,与硅谷部分企业内部动荡形成鲜明对比。
技术开放背后的战略信号
此次64页补充材料的发布极为罕见——通常论文发表后仅做勘误,而DeepSeek选择系统性补全技术细节,极大提升了R1的可复现性。
更值得注意的是,更新时间恰逢原论文即将满一周年,被业内解读为对R1阶段的总结。此举是否意味着新一代模型即将发布?市场对DeepSeek-R2或DeepSeek-V4的推出充满猜测。
v2版论文链接:
https://arxiv.org/abs/2501.12948v2
— 完 —

