一直以来,人工智能的“推理能力”被认为是其接近人类智能的关键标志。但当前主流方法严重依赖人类标注的推理过程,不仅成本高昂,还可能限制模型突破“人类思维天花板”。最近,DeepSeek创始人梁文锋参与的一篇发表于《Nature》的论文提出了一种全新路径:仅通过强化学习(RL),无需任何人类推理示例,即可激发大模型的推理能力。这项由DeepSeek团队完成的研究,不仅取得了多项SOTA性能,更让我们看到了AI“自我进化”的可能。
一、背景:推理能力,AI的“圣杯”
推理能力是人类智能的核心。从解数学题到写代码,从逻辑推演到科学计算,都离不开推理。近年来,大语言模型(LLM)借助“思维链”(Chain-of-Thought, CoT)提示技术,在多项推理任务中表现突出。但这类方法存在明显局限:
依赖大量人工标注的推理示例;
模型只是模仿人类,难以超越人类;
扩展性差,成本高,还可能带入人类偏见。
有没有一种方法,不依赖人类示范,让模型自主发展出推理能力?
二、DeepSeek-RI:纯强化学习驱动的推理突破
DeepSeek团队提出了一个名为DeepSeek-RI的模型,其核心创新在于:完全抛开人工标注,仅通过强化学习(RL)激励模型自我提升推理能力。
方法框架:GRPO + 规则奖励
研究团队采用了一种称为Group Relative Policy Optimization (GRPO) 的RL算法,相比于传统的PPO,训练更稳定、资源消耗更低。
关键设定在于:奖励只基于最终答案的对错,而不干预推理过程本身。模型可以自由探索任何推理路径——只要最终答案正确,就能获得奖励。
两个核心模型:
DeepSeek-RI-Zero:
完全从零开始RL训练,无监督微调(SFT)阶段;
自主发展出反思、验证、多策略尝试等复杂推理行为;
在AIME数学竞赛中准确率从15.6%提升至77.9%,自一致性解码后达86.7%,显著超越人类平均水平。
DeepSeek-RI:
在RI-Zero基础上,融入多阶段训练(拒绝采样 + SFT + 二次RL);
解决了RI-Zero存在的语言混合、可读性差等问题;
在保持推理能力的同时,更好地对齐人类偏好。
三、关键发现:模型竟能“自我觉醒”
1. 推理长度自发增长
在训练过程中,模型自主延长推理时间,生成更长的思维链。这说明它学会了“多思考才能解决问题”。
DeepSeek-R1-Zero在整个训练过程中的准确性和输出长度
2. 出现“顿悟时刻”(Aha! Moment)
模型在训练中突然开始频繁使用“wait”等反思性词汇,意味着它开始具备自我监控和调整的能力。
例如:“Wait, wait. That’s an aha moment… Let’s reevaluate this step by step.”
DeepSeek-R1-Zero 某个中间版本一个有趣的“顿悟时刻”
3. 多领域性能大幅提升
DeepSeek-RI在多个权威评测中表现优异:
数学:AIME2024(79.8%)、MATH-500(97.3%)
代码:LiveCodeBench(65.9%)、Codeforces(96.3%)
综合能力:MMLU-Pro(84.0%)、AlpacaEval 2.0(87.6%)
尤其是在需深度推理的STEM任务中,RL训练带来的提升最为显著。
四、深远影响:小模型也能获得强推理能力
团队还将DeepSeek-RI的推理能力蒸馏到了多个小模型中,公开提供给社区使用。这意味着:
更低能耗下也能获得强推理模型;
为学术界提供可复现的基础;
推动推理机制的可解释性研究。
五、局限与未来方向
尽管性能卓越,DeepSeek-RI仍有如下局限:
工具调用能力不足:无法使用搜索引擎、计算器等;
词元效率(Token Efficiency)不高:有时会“过度思考”简单问题;
语言混合问题:中英文优化为主,其他语言可能出现混合;
提示词敏感:对少样本提示反而表现下降,建议使用零样本提示。
未来,团队计划:
加入工具使用环境;
优化 token 分配策略;
扩展多语言支持;
探索更稳健的奖励模型设计。
六、结语:AI推理的新范式已经到来
DeepSeek-RI的研究证明了一点:无需人类标注,仅靠强化学习+硬推理问题+可靠验证器,AI可以自主发展出超越人类水平的推理策略。这不仅大幅降低了AI训练的成本,更开辟了一条通向“自主智能”的新路径。如果说以前的AI是在“模仿人类”,那么DeepSeek-RI则是在“超越人类”。
参考文献:
Guo, D., Yang, D., Zhang, H. et al. DeepSeek-R1 incentivizes reasoning in LLMs through reinforcement learning. Nature 645, 633–638 (2025). https://doi.org/10.1038/s41586-025-09422-z
如果你对AI推理、强化学习或大模型技术感兴趣,这项研究绝对值得你深入阅读。未来已来,只是尚未普及。
关注我们,紧跟时代的步伐,聚焦科学的前沿!

