大数跨境
0
0

重磅!DeepSeek R1论文经过同行评议登上Nature封面,梁文锋作为通讯作者再次创造历史

重磅!DeepSeek R1论文经过同行评议登上Nature封面,梁文锋作为通讯作者再次创造历史 AI寒武纪
2025-09-18
10


DeepSeek-R1论文《DeepSeek-R1 incentivizes reasoning in LLMs through reinforcement learning》登上Nature封面,梁文锋为通讯作者。这是首个经过同行评议、具有全球影响力的大型语言模型(LLM),标志着中国AI研究的重要突破。

该论文于今年2月提交,今日正式发表。相较于今年1月发布的预印本,Nature刊发版本更新了技术细节,并首次披露R1的训练成本仅为29.4万美元,基于已耗资约600万美元的基础LLM进行优化,总成本远低于国际同类模型。训练主要采用英伟达H800芯片。

截至目前,R1已成为Hugging Face平台上下载量最高的同类模型,累计下载达1090万次。

严格的同行评审

R1是首个经历完整同行评审的重要大语言模型,这一过程显著提升了其科学可信度。《自然》审稿人之一、Hugging Face机器学习工程师Lewis Tunstall表示:“这是一个非常值得欢迎的先例。公开研究过程对评估系统潜在风险至关重要。”

为回应评审意见,DeepSeek团队调整了论文表述,减少拟人化描述,并补充了数据来源与安全机制等关键信息。俄亥俄州立大学AI研究员Huan Sun指出:“严格的评审有助于验证模型的有效性与实用性,其他企业也应跟进。”

核心技术:纯粹强化学习

DeepSeek的核心创新在于采用“纯粹强化学习”方法训练R1,通过奖励机制引导模型自主生成推理路径,而非依赖人类标注的推理样本。该方式使模型能自我验证计算过程,形成类推理能力。

为提升效率,R1引入“组相对策略优化”(Group Relative Policy Optimization),利用估算值对自身输出进行评分,避免使用独立评分算法,大幅降低计算开销。

业内普遍认为,2025年几乎所有在LLM中应用强化学习的研究,均受到R1的启发。

训练数据与技术澄清

此前有媒体报道称,DeepSeek可能利用OpenAI模型输出进行知识蒸馏以加速训练。对此,DeepSeek在回应审稿人时明确表示,R1并未复制任何第三方模型的推理示例,其基础模型训练数据来源于公开网络文本,训练方式与其他主流LLM一致。

Huan Sun评价称,该声明“具备充分说服力”。Tunstall也指出,尽管无法百分百排除外部影响,但多个独立实验室的复现结果表明,仅靠纯粹强化学习即可实现高性能,无需依赖他人模型输出。

性能与行业影响

在ScienceAgentBench科学任务挑战中,R1虽非准确率最高,但在综合性能与成本效益方面表现突出,展现出极强竞争力。

Tunstall表示,目前全球多个研究团队正尝试将R1的技术应用于增强现有LLM的推理能力,并拓展至数学、编程以外的领域。“从这个角度看,R1真正引发了一场技术革命。”

参考:

https://www.nature.com/articles/d41586-025-03015-6


【声明】内容源于网络
0
0
AI寒武纪
1234
内容 509
粉丝 0
AI寒武纪 1234
总阅读3.5k
粉丝0
内容509