大数跨境
0
0

DeepSeek-R1:最佳开源推理LLM 优于 OpenAI-o1

DeepSeek-R1:最佳开源推理LLM 优于 OpenAI-o1 AI算法之道
2025-01-27
0
导读:DeepSeek-R1核心技术讲解
点击蓝字
 
关注我们










01


引言



继几天前轰动一时的 DeepSeek-v3 之后,DeepSeek 现在又发布了 DeepSeek-R1 和 DeepSeek-R1-Zero,它们在各种基准测试中的表现都优于 OpenAI-o1 和 Claude3.5 Sonnet。

闲话少说,我们直接开始吧!






02


什么是DeepSeek-R1和DeepSeek-R1-Zero?


这是DeepSeek发布的两个不同的模型系列,其中DeepSeek-R1是使用DeepSeek-R1-Zero训练的

模型规格:
  • 参数总数671B。
  • 激活参数:37B。
  • 上下文长度:128K。
  • 基础模型:基于 DeepSeek-V3-Base 进行训练。
  • DeepSeek-R1-Zero、DeepSeek-R1 和六个蒸馏模型已在 HuggingFace 上开源。






03


训练策略

  • DeepSeek-R1-Zero:

纯粹通过大规模强化学习(RL)进行训练,没有任何监督微调(SFT)作为初始步骤。

完全依靠 RL 来开发推理能力,使其成为一种独特的开创性方法。出现自我验证、反思和长思维链(CoT)推理行为。

挑战 :无休止的重复、可读性差、语言混杂等问题。

  • DeepSeek-R1:

在应用 RL 之前纳入冷启动数据。这是指在使用强化学习(RL)对模型进行进一步训练之前,使用监督微调(SFT)或预训练数据对模型进行初始化或准备的过程。这种方法用于解决纯粹使用 RL 训练的模型(如 DeepSeek-R1-Zero)所面临的一些挑战,并提高整体性能

包括两个 SFT 阶段,为推理和非推理能力提供基础。使用两级 RL PipeLine:发现改进的推理模式以及使模型符合人类的偏好。






04


蒸馏

更小的模型:大型模型(如 DeepSeek-R1)中的推理模式可以提炼成较小的模型,从而比 RL 训练的小型模型性能更好。

开源蒸馏模型:

DeepSeek-R1-Distill-Qwen 系列:1.5b、7b、14b、32b。

DeepSeek-R1-Distill-Llama 系列:8B, 70B.

性能在所有基准测试中,蒸馏模型(如 DeepSeek-R1-Distill-Qwen-32B)的性能均优于 OpenAI-o1-mini,在密集模型方面取得了最先进的结果。






05


研究影响

DeepSeek-R1-Zero 验证了纯 RL 训练在推理能力方面的潜力。

DeepSeek-R1 管道引入了一种结构化方法来改进推理并与人类偏好保持一致。

蒸馏技术表明,较小的模型也能实现高性能,有利于资源有限的应用。

相关指标说明如下:

AIME 2024(Pass@1):测量数学竞赛数据集的正确答题百分比。分数越高,说明单次回答的准确率越高。

代码能力(百分位数):表示在竞争性编程问题上的百分位数排名。百分位数越高,表示性能越好。

GPQA(Pass@1):测试通用 QA 任务。Pass@1 显示第一次回答的准确性。

MATH-500(Pass@1):评估高级数学问题的成绩。Pass@1 衡量一次尝试的正确率。

MMLU(Pass@1):测试各学科的多任务学习能力。Pass@1 反映了单项反应的准确性。

WE-bench 验证(已解决):评估软件工程任务性能,重点是解决问题的正确性。





06


为什么DeepSeek-R1性能更佳?

总体得分:在大多数基准测试中,DeepSeek-R1 的表现始终优于或与 OpenAI-o1 相当,尤其是在 AIME 2024(79.8%)和 SWE-bench Verified(49.2%)中。

专业化:DeepSeek-R1 可能会受益于特定数据集或领域的定向训练,从而在数学(MATH-500,MMLU)等具有挑战性的领域获得更高的准确性。

适应性:与 OpenAI-o1 相比,它在 SWE-bench Verified 等不同基准测试中的性能更高,这表明它更善于处理特定领域的任务。

可扩展性:DeepSeek-R1-32B 变体还能以较少的计算资源实现接近竞争水平的性能,这表明其扩展效率很高。




07


如何免费试用?

可免费使用DeepSeek-R1,只需进入 deepseek.com,切换到 DeepThink 模式。

此外,也可以使用来自 HuggingFace 的开源蒸馏模型。下面添加了 1.5B 模型的链接:

DeepSeek-R1-Distill-Qwen-1.5B:https://huggingface.co/deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B

DeepSeek-R1 和 R1-Zero 为推理 LLM 树立了新基准,在关键基准测试中表现优于 OpenAI-o1 等竞争对手。凭借创新的训练技术和开源可用性,它们使开发人员能够在各种应用中利用尖端的人工智能。无论是处理高级推理任务,还是缩小精炼模型的规模,DeepSeek 都能为所有应用提供灵活性。

最后推荐大家一定要试试这些模型 !



参考文档:https://medium.com/data-science-in-your-pocket/deepseek-r1-best-open-source-reasoning-llm-outperforms-openai-o1-b79869392945




点击上方小卡片关注我




添加个人微信,进专属粉丝群!


【声明】内容源于网络
0
0
AI算法之道
一个专注于深度学习、计算机视觉和自动驾驶感知算法的公众号,涵盖视觉CV、神经网络、模式识别等方面,包括相应的硬件和软件配置,以及开源项目等。
内容 573
粉丝 0
AI算法之道 一个专注于深度学习、计算机视觉和自动驾驶感知算法的公众号,涵盖视觉CV、神经网络、模式识别等方面,包括相应的硬件和软件配置,以及开源项目等。
总阅读148
粉丝0
内容573