大数跨境
0
0

Nature重磅研究解读|告别人类示范!DeepSeek用纯强化学习,激发出AI推理能力

Nature重磅研究解读|告别人类示范!DeepSeek用纯强化学习,激发出AI推理能力 科学臻荟
2025-09-19
1
导读:一直以来,人工智能的“推理能力”被认为是其接近人类智能的关键标志。

一直以来,人工智能的“推理能力”被认为是其接近人类智能的关键标志。但当前主流方法严重依赖人类标注的推理过程,不仅成本高昂,还可能限制模型突破“人类思维天花板”。最近,DeepSeek创始人梁文锋参与的一篇发表于《Nature》的论文提出了一种全新路径:仅通过强化学习(RL),无需任何人类推理示例,即可激发大模型的推理能力。这项由DeepSeek团队完成的研究,不仅取得了多项SOTA性能,更让我们看到了AI“自我进化”的可能。

一、背景:推理能力,AI的“圣杯”

推理能力是人类智能的核心。从解数学题到写代码,从逻辑推演到科学计算,都离不开推理。近年来,大语言模型(LLM)借助“思维链”(Chain-of-Thought, CoT)提示技术,在多项推理任务中表现突出。但这类方法存在明显局限:

  • 依赖大量人工标注的推理示例;

  • 模型只是模仿人类,难以超越人类;

  • 扩展性差,成本高,还可能带入人类偏见。

有没有一种方法,不依赖人类示范,让模型自主发展出推理能力

二、DeepSeek-RI:纯强化学习驱动的推理突破

DeepSeek团队提出了一个名为DeepSeek-RI的模型,其核心创新在于:完全抛开人工标注,仅通过强化学习(RL)激励模型自我提升推理能力。

方法框架:GRPO + 规则奖励

研究团队采用了一种称为Group Relative Policy Optimization (GRPO) 的RL算法,相比于传统的PPO,训练更稳定、资源消耗更低。

关键设定在于:奖励只基于最终答案的对错,而不干预推理过程本身。模型可以自由探索任何推理路径——只要最终答案正确,就能获得奖励。

两个核心模型:

  1. DeepSeek-RI-Zero

    • 完全从零开始RL训练,无监督微调(SFT)阶段;

    • 自主发展出反思、验证、多策略尝试等复杂推理行为;

    • 在AIME数学竞赛中准确率从15.6%提升至77.9%,自一致性解码后达86.7%,显著超越人类平均水平

  2. DeepSeek-RI

    • 在RI-Zero基础上,融入多阶段训练(拒绝采样 + SFT + 二次RL);

    • 解决了RI-Zero存在的语言混合、可读性差等问题;

    • 在保持推理能力的同时,更好地对齐人类偏好。

三、关键发现:模型竟能“自我觉醒”

1. 推理长度自发增长

在训练过程中,模型自主延长推理时间,生成更长的思维链。这说明它学会了“多思考才能解决问题”。

DeepSeek-R1-Zero在整个训练过程中的准确性和输出长度

2. 出现“顿悟时刻”(Aha! Moment)

模型在训练中突然开始频繁使用“wait”等反思性词汇,意味着它开始具备自我监控和调整的能力

例如:“Wait, wait. That’s an aha moment… Let’s reevaluate this step by step.”

DeepSeek-R1-Zero 某个中间版本一个有趣的“顿悟时刻”

3. 多领域性能大幅提升

DeepSeek-RI在多个权威评测中表现优异:

  • 数学:AIME2024(79.8%)、MATH-500(97.3%)

  • 代码:LiveCodeBench(65.9%)、Codeforces(96.3%)

  • 综合能力:MMLU-Pro(84.0%)、AlpacaEval 2.0(87.6%)

尤其是在需深度推理的STEM任务中,RL训练带来的提升最为显著。

四、深远影响:小模型也能获得强推理能力

团队还将DeepSeek-RI的推理能力蒸馏到了多个小模型中,公开提供给社区使用。这意味着:

  • 更低能耗下也能获得强推理模型;

  • 为学术界提供可复现的基础;

  • 推动推理机制的可解释性研究。

五、局限与未来方向

尽管性能卓越,DeepSeek-RI仍有如下局限:

  • 工具调用能力不足:无法使用搜索引擎、计算器等;

  • 词元效率(Token Efficiency)不高有时会“过度思考”简单问题;

  • 语言混合问题:中英文优化为主,其他语言可能出现混合;

  • 提示词敏感:对少样本提示反而表现下降,建议使用零样本提示。

未来,团队计划:

  • 加入工具使用环境;

  • 优化 token 分配策略;

  • 扩展多语言支持;

  • 探索更稳健的奖励模型设计。

六、结语:AI推理的新范式已经到来

DeepSeek-RI的研究证明了一点:无需人类标注,仅靠强化学习+硬推理问题+可靠验证器,AI可以自主发展出超越人类水平的推理策略。这不仅大幅降低了AI训练的成本,更开辟了一条通向“自主智能”的新路径。如果说以前的AI是在“模仿人类”,那么DeepSeek-RI则是在“超越人类”。

参考文献

Guo, D., Yang, D., Zhang, H. et al. DeepSeek-R1 incentivizes reasoning in LLMs through reinforcement learning. Nature 645, 633–638 (2025). https://doi.org/10.1038/s41586-025-09422-z

如果你对AI推理、强化学习或大模型技术感兴趣,这项研究绝对值得你深入阅读。未来已来,只是尚未普及。

关注我们,紧跟时代的步伐,聚焦科学的前沿!


【声明】内容源于网络
0
0
科学臻荟
本公众号专注解读Nature、Cell、Science等顶级期刊的最新科研突破,聚焦生命科学与生物技术领域,为科研工作者及行业同仁提供前沿、精准、深度的文献解析,助力科学洞察与创新转化。关注我们,快速获取全球顶尖科研动态!
内容 8
粉丝 0
科学臻荟 本公众号专注解读Nature、Cell、Science等顶级期刊的最新科研突破,聚焦生命科学与生物技术领域,为科研工作者及行业同仁提供前沿、精准、深度的文献解析,助力科学洞察与创新转化。关注我们,快速获取全球顶尖科研动态!
总阅读0
粉丝0
内容8