DeepSeek开发的AI 大模型 (属于大语言模型、代码模型、视觉语言模型等)
1. DeepSeek R1
• 介绍:2025 年发布的强化学习驱动的推理专用模型,主打数学、编程竞赛等复杂逻辑任务,性能对标 OpenAI o1。
• 核心原理: ◦ 基于 6710 亿参数的 MoE(混合专家)架构,仅激活 370 亿参数降低计算成本; ◦ 用强化学习(GRPO 算法)替代传统海量数据训练,搭配 “智能训练场” 自主学习推理方法; ◦ 通过蒸馏技术把大模型能力迁移到 1.5B~70B 的轻量模型。
• 用途:数学竞赛(AIME)、编程竞赛(Codeforces)、逻辑证明、科研级高精度计算(如气候建模)。
2. DeepSeek V3 / V2
介绍:通用大语言模型的迭代版本,V3 是目前最大的开源 MoE 模型(6710 亿参数)。
核心原理:
采用 MoE 架构 +多头潜在注意力(MLA),把 KV 缓存压缩 93.3%,支持 128K 长上下文;
V3 新增 “多 Token 预测” 技术,生成速度提升 2 倍(从 20TPS 到 60TPS)。
用途:
通用语言任务(对话、写作、翻译);
长文本处理(文档分析、论文总结);
企业级内容生成(营销文案、报告)。
3. DeepSeek Coder V2 / Coder
• 介绍:开源代码专用模型,V2 以 21B 活跃参数实现 236B 模型的性能,是目前顶级的开源代码 AI。
• 核心原理: ◦ MoE 架构 + 6 万亿代码数据预训练; ◦ 支持 338 种编程语言 + 128K 上下文(能加载整个代码库)。
• 用途: ◦ 代码生成、补全、修复(覆盖 Python/Java/C++ 等); ◦ 跨语言代码迁移(如 VB6 转 C#); ◦ 智能合约(Solidity)、AI 模型部署(TensorFlow)等垂直场景。
4. DeepSeek VL
介绍:视觉 - 语言多模态模型,能同时理解图像和文字。
核心原理:
ViT 视觉编码器 + 文本解码器,通过对比学习实现 “图像 - 语言语义对齐”;
用 MoE 架构(16 个专家激活 4 个)降低 60% 计算量。
用途:
图文描述、视觉问答(VQA);
多图像对比分析(如产品外观 / 医学影像差异);
文档图表理解、流程图生成代码。
5. DeepSeek Math
介绍:数学专用模型,是 DeepSeek Coder/V2 的衍生方向之一。
核心原理:在代码模型基础上,强化数学推理数据训练 + 长链思维(CoT)优化。
用途:数学题求解(GSM8K/MATH 基准)、公式推导、理工科计算辅助。
6. DeepSeek LLM
介绍:DeepSeek 的初代大语言模型(670 亿参数),是后续模型的基础。
核心原理:Transformer 架构 +分组查询注意力(GQA),降低推理成本。
用途:基础语言任务(对话、简单写作)、双语内容生成(中英文)。
补充 1:DeepSeek V2(单独型号)
介绍:是 DeepSeek V3 的前代通用大语言模型,属于早期开源的主力基础模型(70B 参数单专家版本)。
核心原理:基于 Transformer 架构 + 分组查询注意力(GQA),原生支持 8K 上下文(后续通过扩展技术升级到 32K),推理成本比 V3 低 30%。
用途:适合中小团队 / 个人的轻量部署场景,比如基础对话机器人、短文本创作、简单文档摘要等。
补充 2:DeepSeek Coder(初代)
介绍:是 DeepSeek Coder V2 的前代代码专用模型,分为 6.7B/33B 参数两个版本,是早期开源代码模型中的性能标杆之一。
核心原理:用 2 万亿代码数据预训练(覆盖 200 + 编程语言),基于 Transformer 架构 + 单专家模式,上下文长度支持 64K。
用途:适合个人开发者的日常场景,比如简单脚本生成、代码片段补全、基础语法纠错等,部署资源要求比 V2 低。

