DeepSeek-V4 预览版

官方技术报告要点速览与核心能力图谱

超万亿参数规模 · 百万级上下文

1双版本并行

🔥 DeepSeek-V4-Pro (旗舰性能)

参数规模：总参数 1.6T / 激活参数 49B
核心亮点：三种推理模式（Non-think / Think High / Think Max）。在最强计算预算下，解决复杂 Agentic 任务的能力直接逼近全球闭源顶级水平。

⚡ DeepSeek-V4-Flash (快捷经济)

参数规模：总参数 284B / 激活参数 13B
核心亮点：全面继承 Pro 版底层训练管线，主打极致性价比与极速吞吐。同享 1M 超大上下文，是企业级规模化落地与降本增效的基石。部分 Coding Agent已经可以体验。

2基准测试对抗（部分）

核心能力维度	DeepSeek-V4 Pro Max	海外头部竞品对比
复杂代码生成 (LiveCodeBench)	93.5 分 (官方表格中领先)	高于 Gemini-3.1-Pro High 的91.7 优于 Opus-4.6 Max 的88.8
真实仓库修复 (SWE Verified)	80.6 分 (真实 GitHub issue 修复)	与 Gemini-3.1-Pro High 持平略低于 Opus-4.6 Max 的80.8
复杂工程任务 (SWE Pro)	55.4 分 (接近第一梯队)	低于 K2.6 思维的58.6 低于 GLM-5.1 思维的58.4
Agent 终端任务 (终端工作台 2.0)	67.9 分 (较强工具执行能力)	低于 GPT-5.4 xHigh 的75.1 接近 Gemini-3.1-Pro High 的 68.5
广义世界知识 (MMLU-Pro)	87.5 分 (Think Max 模式)	与 GPT-5.4 xHigh 持平低于 Gemini-3.1-Pro High 的91.0
商业部署经济性	极高 (API 成本优势明显)	海外头部模型通常成本更高适合按具体模型单价逐项比较

3核心技术创新

混合注意力架构 (Hybrid Attention)：
结合压缩稀疏注意力(CSA)与重度压缩注意力(HCA)，在1M上下文时，推理算力直降至27%，KV Cache 需求暴降至10%。
流形约束超连接 (mHC)：
强化残差连接，极大提升信号跨层传播保真度，提升超深层模型中信号传播稳定性，降低长链路推理中的退化风险。
Muon优化器赋能：
替代传统 Adam 系列，在超大规模训练里获得更快的收敛速度和更高的训练稳定性。
模块化后训练管线：
“两阶段范式”，SFT与GRPO先培育独立专家，再通过同策略蒸馏无损熔合进基础大模型。

4官方定价

计费单位：每百万 (1M) Token。

模型 / 维度	输入 (命中缓存)	输入 (未命中)	输出计算
V4-Flash (海外美元)	$0.028	$0.14	$0.28
V4-Flash (本土人民币)	约 0.2 元	约 1.0 元	约 2.0 元
V4-Pro (海外美元)	$0.145	$1.74	$3.48
V4-Pro (本土人民币)	约 1.0 元	约 12.0 元	约 24.0 元

💡 以 V4-Flash 非缓存输入 $0.14 / 1M、输出 $0.28 / 1M 计，其 API 单价显著低于多数海外头部通用模型；但具体倍数应随对比模型和缓存命中率重新计算。

5API 使用

🌐 双兼容端点 (Endpoint)：
• OpenAI 兼容: https://api.deepseek.com
• Anthropic 兼容: https://api.deepseek.com/anthropic

🏷️ 模型名称 (Model Name)：
deepseek-v4-pro或deepseek-v4-flash

🛠️ 全功能扩展支持：
原生支持 JSON 结构化输出 (JSON Output)、外部工具调用 (Tool Calls)、前缀补全及代码填充。

⚠️ 废弃预警：旧版deepseek-chat/reasoner将于 2026年7月24日全面停服，过渡期内将在后端自动映射至 V4-Flash 的两种模式。

✨ 国产之光，开放生态 ✨

【算力主权】率先完成与华为昇腾（Ascend）国产AI芯片的原生适配，实质性推进“去CUDA化”，推动国产算力生态落地。

【开放生态】1.6万亿参数的完整权重在MIT 协议下开源，允许商用部署及二次开发，为企业、开发者和研究机构提供了更大的使用空间。

DeepSeek-V4 的意义，不只在于参数规模和基准成绩，更在于它展示了一条更开放、更高效、更易落地的大模型发展路径。对于企业而言，它降低了尝试先进模型能力的门槛；对于开发者而言，它提供了一个可研究、可部署、可二次开发的基模选择；对于生态而言，它也让普惠 AI 的落地多了一种现实可能。

数据来源：DeepSeek 官方技术报告

【声明】内容源于网络

AI大模型应用实践

专注大模型应用的深度研究与开发实践。《基于大模型的RAG应用开发与优化》、《MCP原理揭秘与开发指南》作者。ToB为主，ToC为辅。

内容 56

粉丝 0

AI大模型应用实践专注大模型应用的深度研究与开发实践。《基于大模型的RAG应用开发与优化》、《MCP原理揭秘与开发指南》作者。ToB为主，ToC为辅。

总阅读229

粉丝0

内容56

DeepSeek-V4 预览版：技术报告要点速览图。