

DeepSeek-R1：最佳开源推理LLM 优于 OpenAI-o1

AI算法之道

2025-01-27

导读：DeepSeek-R1核心技术讲解

点击蓝字

关注我们

引言

继几天前轰动一时的 DeepSeek-v3 之后，DeepSeek 现在又发布了 DeepSeek-R1 和 DeepSeek-R1-Zero，它们在各种基准测试中的表现都优于 OpenAI-o1 和 Claude3.5 Sonnet。

闲话少说，我们直接开始吧！

什么是DeepSeek-R1和DeepSeek-R1-Zero？

这是DeepSeek发布的两个不同的模型系列，其中DeepSeek-R1是使用DeepSeek-R1-Zero训练的。

模型规格：

参数总数671B。
激活参数：37B。
上下文长度：128K。
基础模型：基于 DeepSeek-V3-Base 进行训练。
DeepSeek-R1-Zero、DeepSeek-R1 和六个蒸馏模型已在 HuggingFace 上开源。

训练策略

DeepSeek-R1-Zero:

纯粹通过大规模强化学习（RL）进行训练，没有任何监督微调（SFT）作为初始步骤。

完全依靠 RL 来开发推理能力，使其成为一种独特的开创性方法。出现自我验证、反思和长思维链（CoT）推理行为。

挑战：无休止的重复、可读性差、语言混杂等问题。

DeepSeek-R1:

在应用 RL 之前纳入冷启动数据。这是指在使用强化学习（RL）对模型进行进一步训练之前，使用监督微调（SFT）或预训练数据对模型进行初始化或准备的过程。这种方法用于解决纯粹使用 RL 训练的模型（如 DeepSeek-R1-Zero）所面临的一些挑战，并提高整体性能。

包括两个 SFT 阶段，为推理和非推理能力提供基础。使用两级 RL PipeLine：发现改进的推理模式以及使模型符合人类的偏好。

蒸馏

更小的模型：大型模型（如 DeepSeek-R1）中的推理模式可以提炼成较小的模型，从而比 RL 训练的小型模型性能更好。

开源蒸馏模型：

DeepSeek-R1-Distill-Qwen 系列：1.5b、7b、14b、32b。

DeepSeek-R1-Distill-Llama 系列：8B, 70B.

性能在所有基准测试中，蒸馏模型（如 DeepSeek-R1-Distill-Qwen-32B）的性能均优于 OpenAI-o1-mini，在密集模型方面取得了最先进的结果。

研究影响

DeepSeek-R1-Zero 验证了纯 RL 训练在推理能力方面的潜力。

DeepSeek-R1 管道引入了一种结构化方法来改进推理并与人类偏好保持一致。

蒸馏技术表明，较小的模型也能实现高性能，有利于资源有限的应用。

相关指标说明如下：

AIME 2024（Pass@1）：测量数学竞赛数据集的正确答题百分比。分数越高，说明单次回答的准确率越高。

代码能力（百分位数）：表示在竞争性编程问题上的百分位数排名。百分位数越高，表示性能越好。

GPQA（Pass@1）：测试通用 QA 任务。Pass@1 显示第一次回答的准确性。

MATH-500（Pass@1）：评估高级数学问题的成绩。Pass@1 衡量一次尝试的正确率。

MMLU（Pass@1）：测试各学科的多任务学习能力。Pass@1 反映了单项反应的准确性。

WE-bench 验证（已解决）：评估软件工程任务性能，重点是解决问题的正确性。

为什么DeepSeek-R1性能更佳？

总体得分：在大多数基准测试中，DeepSeek-R1 的表现始终优于或与 OpenAI-o1 相当，尤其是在 AIME 2024（79.8%）和 SWE-bench Verified（49.2%）中。

专业化：DeepSeek-R1 可能会受益于特定数据集或领域的定向训练，从而在数学（MATH-500，MMLU）等具有挑战性的领域获得更高的准确性。

适应性：与 OpenAI-o1 相比，它在 SWE-bench Verified 等不同基准测试中的性能更高，这表明它更善于处理特定领域的任务。

可扩展性：DeepSeek-R1-32B 变体还能以较少的计算资源实现接近竞争水平的性能，这表明其扩展效率很高。

如何免费试用？

可免费使用DeepSeek-R1，只需进入 deepseek.com，切换到 DeepThink 模式。

此外，也可以使用来自 HuggingFace 的开源蒸馏模型。下面添加了 1.5B 模型的链接：

DeepSeek-R1-Distill-Qwen-1.5B：https://huggingface.co/deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B

DeepSeek-R1 和 R1-Zero 为推理 LLM 树立了新基准，在关键基准测试中表现优于 OpenAI-o1 等竞争对手。凭借创新的训练技术和开源可用性，它们使开发人员能够在各种应用中利用尖端的人工智能。无论是处理高级推理任务，还是缩小精炼模型的规模，DeepSeek 都能为所有应用提供灵活性。

最后推荐大家一定要试试这些模型 !

参考文档：https://medium.com/data-science-in-your-pocket/deepseek-r1-best-open-source-reasoning-llm-outperforms-openai-o1-b79869392945

点击上方小卡片关注我

添加个人微信，进专属粉丝群！

【声明】内容源于网络

AI算法之道

一个专注于深度学习、计算机视觉和自动驾驶感知算法的公众号，涵盖视觉CV、神经网络、模式识别等方面，包括相应的硬件和软件配置，以及开源项目等。

内容 573

粉丝 0

AI算法之道一个专注于深度学习、计算机视觉和自动驾驶感知算法的公众号，涵盖视觉CV、神经网络、模式识别等方面，包括相应的硬件和软件配置，以及开源项目等。

总阅读148

粉丝0

内容573