
01
引言
继几天前轰动一时的 DeepSeek-v3 之后,DeepSeek 现在又发布了 DeepSeek-R1 和 DeepSeek-R1-Zero,它们在各种基准测试中的表现都优于 OpenAI-o1 和 Claude3.5 Sonnet。
02
这是DeepSeek发布的两个不同的模型系列,其中DeepSeek-R1是使用DeepSeek-R1-Zero训练的。
-
参数总数671B。 -
激活参数:37B。 -
上下文长度:128K。 -
基础模型:基于 DeepSeek-V3-Base 进行训练。 -
DeepSeek-R1-Zero、DeepSeek-R1 和六个蒸馏模型已在 HuggingFace 上开源。
03
DeepSeek-R1-Zero:
纯粹通过大规模强化学习(RL)进行训练,没有任何监督微调(SFT)作为初始步骤。
完全依靠 RL 来开发推理能力,使其成为一种独特的开创性方法。出现自我验证、反思和长思维链(CoT)推理行为。
挑战 :无休止的重复、可读性差、语言混杂等问题。
DeepSeek-R1:
在应用 RL 之前纳入冷启动数据。这是指在使用强化学习(RL)对模型进行进一步训练之前,使用监督微调(SFT)或预训练数据对模型进行初始化或准备的过程。这种方法用于解决纯粹使用 RL 训练的模型(如 DeepSeek-R1-Zero)所面临的一些挑战,并提高整体性能。
包括两个 SFT 阶段,为推理和非推理能力提供基础。使用两级 RL PipeLine:发现改进的推理模式以及使模型符合人类的偏好。
04
更小的模型:大型模型(如 DeepSeek-R1)中的推理模式可以提炼成较小的模型,从而比 RL 训练的小型模型性能更好。
开源蒸馏模型:
DeepSeek-R1-Distill-Qwen 系列:1.5b、7b、14b、32b。
DeepSeek-R1-Distill-Llama 系列:8B, 70B.
性能在所有基准测试中,蒸馏模型(如 DeepSeek-R1-Distill-Qwen-32B)的性能均优于 OpenAI-o1-mini,在密集模型方面取得了最先进的结果。
05
DeepSeek-R1-Zero 验证了纯 RL 训练在推理能力方面的潜力。
DeepSeek-R1 管道引入了一种结构化方法来改进推理并与人类偏好保持一致。
蒸馏技术表明,较小的模型也能实现高性能,有利于资源有限的应用。

相关指标说明如下:
AIME 2024(Pass@1):测量数学竞赛数据集的正确答题百分比。分数越高,说明单次回答的准确率越高。
代码能力(百分位数):表示在竞争性编程问题上的百分位数排名。百分位数越高,表示性能越好。
GPQA(Pass@1):测试通用 QA 任务。Pass@1 显示第一次回答的准确性。
MATH-500(Pass@1):评估高级数学问题的成绩。Pass@1 衡量一次尝试的正确率。
MMLU(Pass@1):测试各学科的多任务学习能力。Pass@1 反映了单项反应的准确性。
WE-bench 验证(已解决):评估软件工程任务性能,重点是解决问题的正确性。
06
总体得分:在大多数基准测试中,DeepSeek-R1 的表现始终优于或与 OpenAI-o1 相当,尤其是在 AIME 2024(79.8%)和 SWE-bench Verified(49.2%)中。
专业化:DeepSeek-R1 可能会受益于特定数据集或领域的定向训练,从而在数学(MATH-500,MMLU)等具有挑战性的领域获得更高的准确性。
适应性:与 OpenAI-o1 相比,它在 SWE-bench Verified 等不同基准测试中的性能更高,这表明它更善于处理特定领域的任务。
可扩展性:DeepSeek-R1-32B 变体还能以较少的计算资源实现接近竞争水平的性能,这表明其扩展效率很高。
07
可免费使用DeepSeek-R1,只需进入 deepseek.com,切换到 DeepThink 模式。

此外,也可以使用来自 HuggingFace 的开源蒸馏模型。下面添加了 1.5B 模型的链接:
DeepSeek-R1-Distill-Qwen-1.5B:https://huggingface.co/deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B
DeepSeek-R1 和 R1-Zero 为推理 LLM 树立了新基准,在关键基准测试中表现优于 OpenAI-o1 等竞争对手。凭借创新的训练技术和开源可用性,它们使开发人员能够在各种应用中利用尖端的人工智能。无论是处理高级推理任务,还是缩小精炼模型的规模,DeepSeek 都能为所有应用提供灵活性。
最后推荐大家一定要试试这些模型 !
参考文档:https://medium.com/data-science-in-your-pocket/deepseek-r1-best-open-source-reasoning-llm-outperforms-openai-o1-b79869392945
点击上方小卡片关注我
添加个人微信,进专属粉丝群!


