大数跨境

DeepSeek系列一:DeepSeek LLM:从零开始训练开源大模型的长期主义之路

DeepSeek系列一:DeepSeek LLM:从零开始训练开源大模型的长期主义之路 洞见畏来
2026-01-26
2
导读:DeepSeek系列一:DeepSeek LLM:从零开始训练开源大模型的长期主义之路

在大语言模型(LLM)领域,开源社区的发展速度令人惊叹。然而,关于如何科学地扩展模型规模,业界一直存在不同的声音和结论。今天,我们要介绍的 DeepSeek LLM 项目,不仅带来了性能卓越的开源模型,更重要的是,它为我们揭示了大模型训练背后的科学规律。

一、什么是 DeepSeek LLM?

DeepSeek LLM 是一个完全从零开始训练的开源大语言模型系列,包含 7B 和 67B 两个版本。这个项目最大的特点是秉承"长期主义"理念——不追求短期效果,而是深入研究模型扩展的底层规律,为未来持续改进打下坚实基础。
核心数据:

  • 预训练数据:2 万亿 tokens(中英文为主,持续扩充中)

  • 模型规模:7B 和 67B 两个版本

  • 性能表现:67B 版本在多项基准测试中超越 LLaMA-2 70B,Chat 版本媲美 GPT-3.5

二、训练大模型的"配方"是什么?

训练一个大语言模型,就像烹饪一道复杂的菜肴。你需要准备好食材(数据)、选择合适的烹饪方法(模型架构)、掌握火候(超参数),还要有一套高效的厨房设备(训练基础设施)。

数据准备:质量决定上限

DeepSeek 团队在数据准备上下了很大功夫。他们将数据处理分为三个关键阶段:
1. 去重(Deduplication)
你可能想不到,互联网上的重复内容有多严重。团队发现,如果只对单个数据集去重,大约能去掉 22% 的重复内容。但如果对 91 个不同时期的 Common Crawl 数据一起去重,重复率高达 90%!这意味着,大部分网页内容其实是重复的。
2. 过滤(Filtering)
不是所有数据都值得学习。团队开发了一套评估体系,从语言特征和语义内容两个维度评估文档质量,就像给每篇文章打分一样,只保留高质量的内容。
3. 重新混合(Remixing)
数据分布不均衡怎么办?团队会适当增加某些稀缺但重要领域的数据比例,确保模型能学到更全面的知识。

模型架构:站在巨人的肩膀上

DeepSeek LLM 的基础架构借鉴了 LLaMA 的设计,但做了一些巧妙的调整:

  • 7B 模型:30 层网络

  • 67B 模型:95 层网络,采用分组查询注意力(GQA)机制降低推理成本

有意思的是,67B 模型选择增加网络深度(95 层)而不是加宽网络,这样能获得更好的性能,同时便于训练和推理时的并行计算。

学习率策略:不走寻常路

大多数模型使用余弦学习率衰减,但 DeepSeek 团队选择了多阶段学习率策略:

  • 前 80% 训练:学习率降至最大值的 31.6%

  • 80-90%:进一步降至 10%

  • 最后 10%:保持在 10%



如图所示,虽然多阶段策略的损失下降曲线与余弦策略有所不同,但最终性能相当。更重要的是,这种策略便于继续训练——如果想继续训练更多数据,可以直接复用前面阶段的训练成果。


三、破解扩展定律的秘密

训练大模型最大的挑战是:在算力有限的情况下,如何分配模型规模和数据规模?这就是"扩展定律"(Scaling Laws)要回答的问题。

超参数的扩展规律

DeepSeek 团队首先研究了批次大小和学习率的最优设置。他们发现:


  • 批次大小:随着计算量增加而增大,遵循幂律关系

  • 学习率:随着计算量增加而减小,同样遵循幂律关系

这个发现非常实用——给定计算预算,可以直接用公式算出最优的批次大小和学习率,不需要再手动调试。

模型与数据的最佳配比

这是扩展定律中最核心的问题:增加计算量时,应该把资源投向更大的模型,还是更多的数据?
以往研究给出的答案差异很大。OpenAI 的研究认为应该主要扩大模型(73% 资源给模型,27% 给数据),而 DeepMind 的 Chinchilla 研究则认为应该均衡分配(约 50:50)。
DeepSeek 团队发现了答案的关键:数据质量决定最优分配策略



他们用三种不同质量的数据集做实验:


  • 早期内部数据:模型扩展系数 0.450

  • 当前内部数据:模型扩展系数 0.524

  • OpenWebText2(高质量):模型扩展系数 0.578

结论很清晰:数据质量越高,越应该把资源投向模型扩展。这解释了为什么不同研究会得出不同结论——他们用的数据质量不同!

性能预测:小实验预测大模型

更令人兴奋的是,基于小规模实验建立的扩展定律,能够准确预测大规模模型的性能。



如图所示,用计算量小 1000 倍的实验建立的预测曲线(虚线),能够准确预测 DeepSeek LLM 7B 和 67B 的实际性能(蓝色星标)。这为训练更大规模的模型提供了信心和指导。


四、从基础模型到对话助手

训练好基础模型只是第一步,要让模型真正有用,还需要对齐(Alignment)训练。

监督微调(SFT)

DeepSeek 收集了约 150 万条指令数据,涵盖:

  • 31.2% 通用语言任务

  • 46.6% 数学问题

  • 22.2% 编程练习

  • 30 万条安全相关数据

有趣的发现:

  • 小模型需要更多训练:7B 模型微调 4 轮,67B 模型只需 2 轮(大模型容易过拟合)

  • 数学数据会导致重复问题:过多的数学推理数据会让模型产生重复输出,需要两阶段训练来解决

直接偏好优化(DPO)

为了进一步提升对话能力,团队使用 DPO 算法让模型学习人类偏好。结果显示,DPO 能显著提升开放式对话能力,但对标准测试分数影响不大。

五、性能表现如何?

基础模型:全面超越 LLaMA-2

尽管 DeepSeek 使用中英双语数据训练(可能导致语言冲突),但性能依然出色:
亮点领域:

  • 数学推理:MATH 数据集 18.7%,GSM8K 达到 63.0%

  • 代码能力:HumanEval 42.7%,MBPP 57.4%

  • 中文理解:C-Eval 66.1%,CMMLU 70.8%



从训练曲线可以看出,模型在各项任务上都呈现稳定的提升趋势,尤其是数学和代码任务在大模型上有明显的涌现效应。


Chat 模型:媲美 GPT-3.5

中文开放对话(AlignBench)

  • 总分 6.69,超越 GPT-3.5(6.08)

  • 仅次于 GPT-4 系列

  • DPO 版本进一步提升到 6.69,在多个维度达到第一梯队

英文开放对话(MT-Bench)

  • 得分 8.35,与 GPT-3.5 相当

  • DPO 版本达到 8.76,仅次于 GPT-4

新数据集测试:真实实力的体现

为了避免测试集污染,团队用最新的数据集测试:
LeetCode 周赛(2023 年 7-11 月)

  • DeepSeek 67B Chat:17.5%

  • 远超其他开源模型

匈牙利高中数学考试

  • DeepSeek 67B Chat:58 分

  • 展现出接近人类学生的数学能力

指令遵循评估(IFEval)

  • DeepSeek 67B Chat:55.5%

  • 说明模型具有良好的指令理解能力

六、安全性:负责任的 AI

DeepSeek 团队组建了 20 人的专家团队,构建了全面的安全评估体系,涵盖:

  • 歧视与偏见问题

  • 侵犯他人合法权益

  • 商业秘密与知识产权

  • 违法违规行为

  • 其他安全问题

在 2400 个安全测试问题中,DeepSeek 67B Chat 表现出色,安全回答率达到很高水平。在 Do-Not-Answer 数据集上,得分 97.8,超过 ChatGPT(97.7)和 GPT-4(96.5)。

七、一些有趣的发现

在开发过程中,团队还发现了一些有意思的现象:

1. 系统提示词的效果取决于模型大小

对于 7B 模型,添加系统提示词反而会轻微降低性能(从 7.15 降到 7.11)。但对于 67B 模型,系统提示词能显著提升性能(从 8.35 升到 8.58)。
原因:大模型更能理解系统提示词的含义并正确遵循指令,而小模型可能会被复杂的提示词困扰。

2. 选择题数据的两面性

添加大量选择题数据能显著提升 MMLU、C-Eval 等多选题基准的分数(从 47% 提升到 71%),但对开放问答能力没有帮助。
结论:为了避免过度拟合测试集,团队决定不在预训练和微调中使用选择题数据。

3. 模型大小带来的质变

虽然 7B 和 67B 模型使用相同的训练流程,但在新数据集上的表现差距显著。这说明算力投入确实能带来模型"智能"的质变,而不仅仅是量变。

八、局限性与未来方向

团队也坦诚地指出了当前的局限:
当前局限:

  • 预训练后知识无法更新

  • 可能生成未经验证的信息

  • 存在幻觉问题

  • 中文数据覆盖还不够全面

  • 对英语以外的其他语言支持有限

未来计划:

  1. 即将发布:代码智能和混合专家(MoE)模型的技术报告

  2. 数据扩充:构建更大更优质的数据集,提升推理、中文知识、数学和代码能力

  3. 对齐研究:通过强化学习提升模型的复杂推理能力,打造有用、诚实、安全的模型

九、写在最后

DeepSeek LLM 项目最大的价值,不仅在于提供了性能出色的开源模型,更在于系统性地研究了大模型训练的科学规律。他们的研究回答了几个关键问题:

  1. 如何科学地选择训练超参数?通过扩展定律建立公式,可以根据计算预算直接计算最优参数。

  2. 模型和数据如何平衡?答案是:取决于数据质量。高质量数据支持训练更大的模型。

  3. 小实验能预测大模型吗?可以!扩展定律让我们能用小规模实验准确预测大模型性能。

  4. 如何避免测试集过拟合不要在训练中使用过多选择题数据,专注提升模型的真实能力。

这种长期主义的研究理念,为开源社区提供了宝贵的经验和工具。随着 DeepSeek 团队持续改进数据质量和模型能力,我们有理由期待未来会有更强大的开源模型出现。
对于想要训练自己大模型的研究者和开发者来说,DeepSeek LLM 的经验告诉我们:不要盲目追求规模,而要先搞清楚扩展的科学规律;不要急于求成,而要打好数据和方法的基础。正如项目名称所示,这是一条需要长期主义精神的道路。

参考资料

  • DeepSeek LLM 论文:DeepSeek LLM: Scaling Open-Source Language Models with Longtermism

  • DeepSeek 官网:https://www.deepseek.com



【声明】内容源于网络
0
0
洞见畏来
专注于前沿科技趋势,剖析底层算法逻辑,深耕商业化场景落地
内容 633
粉丝 0
洞见畏来 专注于前沿科技趋势,剖析底层算法逻辑,深耕商业化场景落地
总阅读228
粉丝0
内容633