大数跨境
0
0

DeepSeek开源之路全景回顾:从V1到R1,解读每个模型的技术突破与参数演进

DeepSeek开源之路全景回顾:从V1到R1,解读每个模型的技术突破与参数演进 数翼
2025-02-08
0
导读:DeepSeek 重新点燃了人们对 AI 的热情,让更多的人接触到了生成式人工智能。 文本介绍一下 DeepSeek 系列主要模型的发布历史及每一代模型的技术突破和参数演进。

DeepSeek 重新点燃了人们对 AI 的热情,让更多的人接触到了生成式人工智能。 文本介绍一下 DeepSeek 系列主要模型的发布历史及每一代模型的技术突破和参数演进。

DeepSeek-V1

2023年12月发布了 DeepSeek 系列模型的的首个版本 DeepSeek-V1。

DeepSeek-V1 有 7B 和 67B 两个版本,并且分别有基础和聊天的模型。

7B的模型文件约 14G 大小,67B 模型文件约 140G 大小。

  • • 代码仓库: https://github.com/deepseek-ai/deepseek-LLM[1]

为了训练 DeepSeek-V1 团队,DeepSeek 团队开发了一个数据集, 该数据集目前包含 2 万亿个 token,训练出了 DeepSeek LLM Base 模型。 并且进一步对 DeepSeek LLM Base 模型进行监督微调 (SFT) 和直接偏好优化 (DPO), 从而创建了 DeepSeek Chat 模型。

DeepSeek LLM 67B 在各种基准测试中都超越了 LLaMA-2 70B。 特别是在代码、数学和推理领域。此外,开放式评估表明,与 GPT-3.5 相比, DeepSeek LLM 67B Chat 表现出更优异的性能。

技术分析

DeepSeek 使用了哪些「黑科技」来训练模型?

数据

首先是数据,为了全面提升数据集的丰富性和多样性, DeepSeek团队将方法分为三个基本阶段:去重、过滤和重新混合。 去重重新混合阶段通过对唯一实例进行采样来确保数据的多样化表示。过滤阶段增强了信息密度,从而实现更高效、更有效的模型训练。

架构

DeepSeek LLM 的微设计很大程度上遵循了 LLaMA 的设计, 采用预范数结构, 并采用 RMSNorm 函数并使用 SwiGLU 作为前馈网络(FFN)的激活函数。 它还采用了旋转嵌入进行位置编码。为了优化推理成本, 67B 模型使用了分组查询注意 (GQA) 来代替传统的多头注意力 (MHA)。

但在宏观设计上,DeepSeek LLM 略有不同,具体来说, DeepSeek LLM 7B 为 30 层网络,而 DeepSeek LLM 67B 则为 95 层, 这些层数的调整在保持与其他开源模型参数一致的同时,也有利于模型流水线划分,从而优化训练和推理。

更多的技术细节可以查看下面论文: DeepSeek LLM:利用 Longtermism 扩展开源语言模型[2]

DeepSeek-Coder

随后,DeepSeek 团队发布并开源了 DeepSeek-Coder 系列模型。

Deepseek Coder 由一系列代码语言模型组成, 每个模型都在 2T 令牌上从头开始训练, 其中 87% 的代码和 13% 的自然语言组成,中英文都有。 提供了各种大小的代码模型,从 1B 到 33B 版本。 每个模型都通过采用 16K 的窗口大小和额外的填空任务在项目级代码语料库上进行预训练, 以支持项目级代码完成和填充。 在编码功能方面,Deepseek Coder 在多种编程语言和各种基准测试的开源代码模型中实现了最先进的性能。

代码仓库: https://github.com/deepseek-ai/deepseek-coder[3]

DeepSeek MoE

随后(2024年1月份),DeepSeek 团队发布了 DeepSeek MoE 模型, 它采用创新的 MoE 架构,主要涉及两个策略:细粒度专家细分和共享专家隔离。 它使用 2T 英文和中文标记从头开始训练,并表现出与 DeekSeek 7B 和 LLaMA2 7B 相当的性能,仅用了大约 40% 的计算量。

也表明未来 DeepSeek 大模型的方向转向 MoE 架构。

DeepSeek-Math

2024年二月,DeepSeek 团队发布了 DeepSeek-Math 模型。

DeepSeekMath 使用 DeepSeek-Coder-v1.5 7B 进行初始化, 并继续对源自 Common Crawl 的数学相关标记以及 500B 标记的自然语言和代码数据进行预训练。 DeepSeekMath 7B 在没有依赖外部工具包和投票技术的情况下, 在竞赛级 MATH 基准测试中取得了 51.7% 的令人印象深刻的分数, 接近 Gemini-Ultra 和 GPT-4 的性能水平。

代码仓库: https://github.com/deepseek-ai/DeepSeek-Math[4]

DeepSeek-V2

2024年5月,DeepSeek 团队发布了 DeepSeek-V2 模型。

DeepSeek-V2 有标准版和 Lite 版本,同样也有基础推理模型和聊天模型。

DeepSeek-V2 标准版的模型文件约 470G,总共包含 236B 参数,其中每个 token 激活 21B。

DeepSeek-V2-Lite 的模型文件约 30G,总参数 160 亿,有效参数 24 亿,使用 5.7T 令牌进行临时训练, 上下文长度为 32K。

基础推理在众多评测中都有很好的表现,

上下文窗口也达到了 128K,

而聊天模型更可以说同阶无敌,多项评测中都是领先众多明星大模型。

技术分析

DeepSeek-V2 使用了 混合专家 (MoE) 模型, 它包含 236B 总参数,其中每个 token 激活 21B,支持 128K token 的上下文长度。

DeepSeek-V2 采用了包括多头潜在注意力 (MLA) 和 DeepSeekMoE 在内的创新架构。 MLA 通过将键值 (KV) 缓存显著压缩为潜在向量来保证高效推理, 而 DeepSeekMoE 通过稀疏计算以经济的成本训练强大的模型。

与 DeepSeek 67B (DeepSeek-V1) 相比, DeepSeek-V2 实现了显著增强的性能, 同时节省了 42.5% 的训练成本、 减少了 93.3% 的 KV 缓存、 并将最大生成吞吐量提升至 5.76 倍

我们在由 8.1T 标记组成的高质量多源语料库上对 DeepSeek-V2 进行了预训练, 并进一步执行监督微调 (SFT) 和强化学习 (RL) 以充分释放其潜力。

感兴趣的可以查看其论文:《DeepSeek-V2:强大、经济、高效的混合专家语言模型》[5]

DeepSeek-VL

同月,DeepSeek 团队发布了 DeepSeek-VL 模型,开启了多模态之路。

DeepSeek-VL是一种开源视觉语言 (VL) 模型, 专为现实世界的视觉和语言理解应用而设计。 DeepSeek-VL 具有通用的多模态理解能力, 能够处理复杂场景中的逻辑图、网页、公式识别、科学文献、自然图像和具身智能。

论文:《DeepSeek-VL:迈向现实世界的视觉语言理解》[6]

DeepSeek-VL 有 7B 和 1.3B 两个变体。

DeepSeek-Coder-V2

6月份,DeepSeek 团队发布了 DeepSeek-Coder-V2 模型, 这是一种开源的专家混合 (MoE) 代码语言模型,在特定于代码的任务中实现了与 GPT4-Turbo 相当的性能。

DeepSeek-Coder-V2 有 2.4B(DeepSeek-Coder-V2-Lite) 和 21B(DeepSeek-Coder-V2) 两个变种。

DeepSeek-VL2

2024年12月份,DeepSeek 团队发布了 DeepSeek-VL2 模型。

模型系列由三个变体组成:DeepSeek-VL2-TinyDeepSeek-VL2-Small 和 DeepSeek-VL2, 分别具有 1.0B、2.8B 和 4.5B 激活参数。

DeepSeek-VL2 是一系列先进的大型混合专家 (MoE) 视觉语言模型, 比其前身 DeepSeek-VL 有了显著改进。 DeepSeek-VL2 在各种任务中都表现出卓越的能力, 包括但不限于视觉问答、光学字符识别、文档/表格/图表理解和视觉基础。

模型系列由三个变体组成:DeepSeek-VL2-TinyDeepSeek-VL2-Small 和 DeepSeek-VL2, 分别具有 1.0B2.8B 和 4.5B 激活参数。 与现有的开源密集和基于 MoE 的模型相比,DeepSeek-VL2 以相似或更少的激活参数实现了具有竞争力或最先进的性能。

论文: 《DeepSeek-VL2:用于高级多模态理解的专家混合视觉语言模型》[7]

DeepSeek-V2.5

2024年10月,DeepSeek 团队发布了 DeepSeek-V2.5 模型。

DeepSeek-V2.5 是 DeepSeek-V2-Chat 与 DeepSeek-Coder-V2-Instruct 的升级版本,新模型融合了前两个版本的通用能力和编码能力。 DeepSeek-V2.5更加贴合人类的习惯,在书写、指令跟随等多个方面进行了优化。

2024年12月,DeepSeek 团队发布了 DeepSeek V2.5 的最终版微调模型 DeepSeek-V2.5-1210

与之前版本相比,本次更新通过 Post-Training 全面提升了模型各方面能力表现,包括数学、代码、写作、角色扮演等;同时,新版模型优化了文件上传功能,并且全新支持了联网搜索,展现出更加强大的全方位服务于各类工作生活场景的能力。

DeepSeek V3

年底(2024年12月)DeepSeek 全新系列模型 DeepSeek-V3 首个版本上线并同步开源。

DeepSeek-V3 为自研 MoE 模型,671B 参数,激活 37B,在 14.8T token 上进行了预训练。

  • • 项目代码: https://github.com/deepseek-ai/DeepSeek-V3[8]
  • • 论文链接: https://github.com/deepseek-ai/DeepSeek-V3/blob/main/DeepSeek_V3.pdf[9]

DeepSeek-V3 多项评测成绩超越了 Qwen2.5-72B 和 Llama-3.1-405B 等其他开源模型,并在性能上和世界顶尖的闭源模型 GPT-4o 以及 Claude-3.5-Sonnet 不分伯仲。

DeepSeek-R1

2025年1月,DeepSeek 团队正式发布 DeepSeek-R1 模型,并同步开源模型权重。

  • • DeepSeek-R1 遵循 MIT License,允许用户通过蒸馏技术借助 R1 训练其他模型。
  • • DeepSeek-R1 上线 API(春节后暂停了 API 充值),对用户开放思维链输出,通过设置 model='deepseek-reasoner' 即可调用。

DeepSeek-R1 有 DeepSeek-R1 和 DeepSeek-R1-Zero 两个版本, DeepSeek-R1-Zero 是一种通过大规模强化学习 (RL) 训练的模型,无需监督微调 (SFT) 作为初步步骤,在推理方面表现出色。 然而,DeepSeek-R1-Zero 面临着诸如无休止重复、可读性差和语言混合等挑战, DeepSeek-R1,它在 RL 之前整合了冷启动数据。DeepSeek-R1 在数学、代码和推理任务中实现了与 OpenAI-o1 相当的性能。

DeepSeek-R1 的  R  表示  Reasoning  推理的意思,也就是其深度思考的能力。

DeepSeek-R1 在后训练阶段大规模使用了强化学习技术,在仅有极少标注数据的情况下,极大提升了模型推理能力。在数学、代码、自然语言推理等任务上,性能比肩 OpenAI o1 正式版。

DeepSeek 团队不仅开源了 DeepSeek-R1-Zero、DeepSeek-R1, 同时开园了基于 Llama 和 Qwen 从 DeepSeek-R1 中提炼出的六个密集模型。 DeepSeek-R1-Distill-Qwen-32B 在各种基准测试中均优于 OpenAI-o1-mini。

  • • 项目代码: https://github.com/deepseek-ai/DeepSeek-R1[10]
  • • 论文链接: https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf[11]

技术突破和创新

强化学习 (RL)

DeepSeek-R1 是直接将强化学习 (RL) 应用于基础模型, 而不依赖监督微调 (SFT) 作为初步步骤。 这种方法允许模型探索解决复杂问题的思维链 (CoT),从而开发 DeepSeek-R1-Zero。

DeepSeek-R1-Zero 展示了自我验证、反射和生成长 CoT 等功能, 标志着研究界的一个重要里程碑。 值得注意的是,这是第一项公开研究,验证了 LLM 的推理能力可以纯粹通过 RL 来激励, 而无需 SFT。这一突破为该领域的未来发展铺平了道路。

这一突破新的创新,直接把同时代的模型打懵了,不过没发布多久,OpenAI 等公司也跟进了该项技术。

DeepSeek-R1 的评估:

蒸馏:较小的模型也可以很强大

R1 也证明了较大模型的推理模式可以提炼成较小的模型, 与通过 RL 在小型模型上发现的推理模式相比,性能更好。

这一研究突破,在很大程度上让小模型性能很差的问题得以改善,

蒸馏模型的评估

最后

纵观这一年多 DeepSeek 模型更新迭代的速度,年中的时候,我们应该会看到更强大的模型。

引用链接

[1]https://github.com/deepseek-ai/deepseek-LLM
[2]DeepSeek LLM:利用 Longtermism 扩展开源语言模型:https://arxiv.org/abs/2401.02954
[3]:https://github.com/deepseek-ai/deepseek-coder
[4]:https://github.com/deepseek-ai/DeepSeek-Math
[5]《DeepSeek-V2:强大、经济、高效的混合专家语言模型》:https://arxiv.org/abs/2405.04434
[6]《DeepSeek-VL:迈向现实世界的视觉语言理解》:https://arxiv.org/abs/2403.05525
[7]《DeepSeek-VL2:用于高级多模态理解的专家混合视觉语言模型》:https://arxiv.org/abs/2412.10302
[8]:https://github.com/deepseek-ai/DeepSeek-V3
[9]:https://github.com/deepseek-ai/DeepSeek-V3/blob/main/DeepSeek_V3.pdf
[10]:https://github.com/deepseek-ai/DeepSeek-R1
[11]https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf


【声明】内容源于网络
0
0
数翼
专注 AIGC 人工智能知识传播和实践
内容 171
粉丝 0
数翼 专注 AIGC 人工智能知识传播和实践
总阅读0
粉丝0
内容171