点击蓝字 关注我们
前言
近日,DeepSeek团队正式发布了DeepSeek-V3.1,在混合思维模式与智能体能力上实现了显著升级。不过,V3.1的强大表现,离不开其前一代模型DeepSeek-V3的技术基座。相比于应用层的优化,DeepSeek-V3的技术报告更系统地揭示了其在架构、训练与推理上的创新。本文将聚焦于V3技术报告,带大家深入解读这款开源领域最强模型的核心亮点。
论文地址:https://arxiv.org/pdf/2412.19437
这份技术报告系统介绍了一个拥有6710亿总参数、370亿激活参数,并在14.8万亿标记上训练的混合专家(MoE)模型。报告主要涵盖了模型架构设计、训练策略与工程优化、后训练中的推理能力蒸馏、全面的评测结果,以及未来在架构改进、数据扩展和评估方法上的研究方向。整体来看,DeepSeek-V3在模型设计、训练效率和推理能力上实现了多项突破,确立了其在开源大模型中的领先地位。
架构概览
1、基本架构
DeepSeek-V3延续Transformer架构,引入多头潜在注意力(MLA)和DeepSeekMoE架构,实现高效推理与经济训练。MLA对注意力的键值(KV)和查询(Q)进行低秩压缩,大幅降低推理缓存和训练激活内存,同时保持与标准多头注意力相当的性能。
DeepSeekMoE在FFN层采用细粒度专家设计,结合共享专家与路由专家,通过Sigmoid门控和无辅助损失的负载均衡策略动态调节偏差,保证序列内外均衡,支持受限节点路由并实现计算与通信重叠,全程无需丢弃标记,提高计算效率与训练稳定性。
2、多标记预测(MTP)
此外,DeepSeek-V3采用多标记预测(MTP)扩展每个位置的预测范围至多个未来标记,提升训练信号密度和数据利用效率,同时优化模型表示。实现上,通过D个顺序模块逐步预测额外标记,每个模块包含共享嵌入层、输出头、Transformer块和投影矩阵,保持因果链完整,使模型在训练中充分利用先前预测更新表示。训练目标通过加权交叉熵损失聚合,而在推理阶段,MTP模块可灵活舍弃或用于推测性解码,兼顾效率与性能。
基础设施概览
1、计算框架
DeepSeek-V3的训练依托2048块NVIDIA H800 GPU的大规模集群,每个节点通过NVLink与NVSwitch内部互连,节点间采用InfiniBand高速通信。训练框架基于自研HAI-LLM,结合16路流水线并行、64路专家并行与ZeRO-1数据并行,并通过DualPipe算法实现前向/后向计算与通信重叠,降低流水线气泡和跨节点通信开销。内存方面,通过RMSNorm和MLA投影重计算、CPU异步存储EMA参数,以及嵌入层与输出头共享内存,有效减少激活值存储需求,实现大规模模型高效训练。
2、FP8训练
在超大规模模型的训练中,计算效率与数值稳定性始终是最核心的矛盾之一。DeepSeek-V3在这方面率先大规模采用FP8训练,并通过多重机制保证了精度和收敛的可靠性。
混合精度框架:精度大部分计算直接在FP8精度下完成,从而显著降低显存占用与算力消耗。但在一些对数值稳定性极度敏感的算子(如嵌入层、输出头、MoE门控、归一化、注意力)中,仍保留BF16/FP32精度,确保梯度计算和参数更新的可靠性。
精细量化策略:DeepSeek-V3没有采用“全局一刀切”的量化方式,而是将激活和权重按块分组缩放,有效避免了数值的溢出与下溢。同时,矩阵乘法(GEMM)的内积累加被提升到CUDA核心执行,以保证在低精度训练下依然维持高精度的累加效果。
低精度存储与通信:在显存和通信优化上,模型进一步利用FP8/BF16压缩激活值和优化器状态,并在MoE投影前完成量化,从而大幅降低跨设备通信的带宽开销。这对于参数量达到数千亿级别的MoE架构尤为关键,使得模型能够在大规模集群中更高效地并行训练。
性能表现:实验结果表明,采用FP8训练的DeepSeek-V3与BF16基线相比,损失误差始终控制在0.25%以内,几乎可以忽略不计。这意味着在保证精度的同时,训练吞吐量和资源利用率获得了显著提升。
3、推理与部署
DeepSeek-V3的推理与部署依托节点内NVLink与节点间IB全互联。在预填充阶段,最小部署单元为4个节点、32GPU,使用TP4+SP+DP8注意力和MoEEP32,并辅以冗余专家策略保证负载均衡和吞吐。解码阶段要求更大规模部署,最小单元为40个节点、320GPU,注意力TP4+SP+DP80、MoE EP320,结合共享与冗余专家策略,实现低延迟与高效负载均衡。此外,通过同时处理相似微批次,有效掩盖全对全通信开销,进一步提升推理吞吐。
预训练
DeepSeek-V3的预训练围绕数据构建、模型架构、训练策略、长上下文扩展与评估五个方面展开。
1、数据构建
预训练数据规模达到14.8T tokens,在多语言、数学和代码样本比例上做了重点优化。数据处理流程减少冗余、保持多样性,并采用Fill-in-Middle(FIM)技术增强代码与文本生成能力。分词器为128K词表的字节级BPE,覆盖21+种语言,提升跨语言压缩效率。
2、模型架构与超参数
V3使用6710亿参数的混合专家(MoE)架构,其中370亿为激活参数。整体为61层Transformer,多数FFN层被MoE替代(256个路由专家+1个共享专家),每个token激活8个专家。训练中使用AdamW优化器、4K序列长度、动态学习率和批量扩展策略,并通过流水线并行与负载均衡提升效率。
3、长上下文扩展
采用YaRN方法逐步扩展上下文,从4K提升至128K。实验表明模型在超长输入下依然保持稳定推理能力,这对长文档处理和检索增强场景意义重大。
4、评估表现
在MMLU、C-Eval、GSM8K、HumanEval等多项权威基准中,DeepSeek-V3基础模型整体超过V2和同类开源模型,在数学和代码任务上尤其突出,接近甚至超越部分超大闭源模型。训练效率方面,每处理1T tokens仅需约18万GPU小时,体现出极高的性价比。
5、讨论与消融实验
报告还对多词预测(MTP)策略、负载均衡方式等进行了消融实验,结果显示:
MTP总能提升性能,但推理阶段可无额外开销地移除;
“无辅助损失”的负载均衡更有利于专家专业化,整体表现优于传统策略。
后训练
DeepSeek-V3的后训练结合监督微调、强化学习、蒸馏与优化等环节,进一步提升了推理、代码和语言能力。
1、监督微调(SFT)
共使用约150万条样本,涵盖推理、写作、问答等场景。推理数据主要来自DeepSeek-R1,经过筛选以平衡准确性和简洁性;其他领域数据则由V2.5生成并人工验证。训练中引入“系统提示+回答”形式,引导模型学会反思和自我验证。
2、强化学习(RL)
采用群组相对策略优化(GRPO)替代传统方法,结合规则奖励(数学、代码等可验证问题)与模型奖励(写作、对话等开放任务),显著提升模型对齐人类偏好和小样本能力。
3、评估表现
在MMLU、C-Eval、HumanEval、LongBench等多项基准上,DeepSeek-V3与GPT-4o、Claude-3.5-Sonnet等闭源模型表现接近,尤其在数学与编程任务中超越大多数开源模型,在中文任务上也领先Qwen2.5-72B。开放评测(如AlpacaEval2.0、Arena-Hard)胜率超过85%。
4、蒸馏与优化
从DeepSeek-R1蒸馏了长链推理能力,显著提升复杂数学与编程任务表现。部分生成任务采用“自我奖励机制”,让模型通过自投票优化对齐效果。同时使用多标记预测(MTP)技术,将解码速度提升至接近2 tokens/s。
5、性能亮点
DeepSeek-V3在长文本理解、数学与编程能力、中文表现等方面均达开源模型前列,RewardBench测试显示其奖励模型能力也接近顶级闭源水平。
结论与展望
DeepSeek-V3基于MLA与DeepSeekMoE架构,结合无辅助损失的负载均衡策略、多标记预测目标(MTP)以及FP8训练优化,在保持训练成本低(仅278.8万H800GPU小时)的同时,实现了卓越的推理能力,通过DeepSeek-R1蒸馏进一步提升性能,整体表现可与GPT-4o、Claude-3.5-Sonnet等顶级闭源模型媲美。尽管如此,其部署单元较大、推理速度仍有提升空间,部分性能仍依赖未来硬件。未来,DeepSeek将在架构优化、突破Transformer限制、数据扩展、推理能力增强及评估体系改进等方向持续探索,力求打造高效、智能且支持长上下文的开源通用大模型。
近期,DeepSeek官方推出DeepSeek-V3.1,在原有V3架构基础上引入混合思维模式(Hybrid Thinking Mode),用户可在“非思维模式”快速输出结果或在“思维模式”中逐步推理;同时增强了智能体能力,支持标准化工具调用、多工具链协作以及代码与搜索代理任务;上下文长度扩展至128K tokens,FP8微缩放训练兼容现有硬件。评测显示V3.1在通用推理、代码生成、数学解题及搜索增强等任务上全面领先上一代,性能接近闭源顶级模型,为开发者提供了高效、稳定且兼容的长上下文AI智能体基础。

