>

【AI】DeepSeekV4震撼发布！实现全球开源领先

>

【AI】DeepSeekV4震撼发布！实现全球开源领先

【AI】DeepSeekV4震撼发布！实现全球开源领先

人工智能产业链union

2026-04-25

1

【导读】DeepSeek V4正式发布：百万级上下文、开源Agent新标杆

DeepSeek V4系列预览版正式发布，标志着开源大模型在长上下文处理、Agent能力与推理性能三大维度实现重大突破。

该系列包含两个核心版本：面向高性能场景的DeepSeek-V4-Pro，以及强调效率与成本效益的DeepSeek-V4-Flash。技术报告已同步公开。

论文地址：https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf

DeepSeek-V4-Pro：性能比肩顶级闭源模型

DeepSeek-V4-Pro拥有1.6T总参数、49B激活参数，代表当前开源模型最高水平，综合能力对标全球顶尖闭源模型。

其核心优势体现在三方面：

Agent能力领先开源界：Agentic Coding水平居开源首位，编码体验超越Sonnet 4.5，交付质量接近Opus 4.6（非思考模式），已成为企业内部Agent编程首选。
世界知识深厚：知识测评显著优于同类开源模型，与Gemini-Pro-3.1差距极小。
逻辑推理卓越：在数学、STEM及高难度竞赛代码等硬核领域表现冠绝开源社区，具备挑战最强闭源模型的实力。

底层技术三大创新

支撑V4-Pro卓越性能的是三项关键架构升级：

混合注意力机制（CSA + HCA）：压缩稀疏注意力（CSA）与重压缩注意力（HCA）协同工作，在百万token上下文中大幅降低计算量与显存需求。
流形约束超连接（mHC）：升级残差连接结构，提升深层网络信号传播稳定性与建模能力。
Muon优化器：全新训练优化器，加速收敛并增强训练稳定性。

在100万token上下文场景下，V4-Pro单token推理计算量仅为前代27%，KV缓存占用降至10%。

DeepSeek-V4-Flash：极致效能与性价比平衡

V4-Flash采用284B总参数、13B激活参数设计，定位高效经济型方案。

虽在世界知识深度略逊于Pro版，但逻辑推理能力接近；响应更快、API接入成本更低，基础Agent任务表现与Pro版相当，复杂任务仍有提升空间。

架构革新：重塑长上下文效率

V4引入革命性注意力机制，结合Token维度高效压缩与DSA稀疏注意力（DeepSeek Sparse Attention），实现业界领先的长文本处理能力，显著降低计算与显存依赖。

即日起，1M（100万tokens）超长上下文将成为DeepSeek官方服务标准配置。

DeepSeek-V4和V3.2的计算量与显存容量随上下文长度变化对比

Agent能力深度优化

V4针对Claude Code、OpenClaw、OpenCode、CodeBuddy等主流Agent生态深度适配，在代码编写、自动化文档生成等场景效率显著提升。

V4-Pro在特定Agent框架下自动生成的PPT页面实例

API全面升级，旧版模型倒计时

开发者可立即通过API调用新模型：

追求性能：model_name = deepseek-v4-pro
追求效率：model_name = deepseek-v4-flash

原deepseek-chat与deepseek-reasoner将作为V4-Flash的过渡别名，将于2026年7月24日正式停用。

论文解读

两种压缩，一套组合拳

V4-Pro采用双路径注意力压缩策略：

CSA（压缩率4）：每4个token KV缓存合并为1条目，Lightning Indexer筛选Top-1024条目参与计算，索引使用FP4精度。
HCA（压缩率128）：极致压缩后保留全部KV条目参与计算，兼顾全局视野与计算效率。

CSA精细检索、HCA全局感知、滑动窗口捕捉局部依赖，三者协同提升长文本建模能力。

在100万token下，KV缓存仅约为BF16 GQA8基线的2%；混合精度存储（RoPE维度BF16，其余FP8）进一步减半体积；推理端支持磁盘级缓存，避免重复prefill。

mHC：6.7%代价换来的稳定性

mHC将残差映射矩阵约束于双随机矩阵流形（Birkhoff多面体），确保谱范数≤1，防止深层信号发散；通过Sinkhorn-Knopp算法迭代投影，工程开销仅增加6.7%墙钟时间。

训练万亿参数的「土办法」

Muon优化器基于Newton-Schulz正交化梯度动量，10次混合迭代实现快速收敛与精确稳定。

另两项关键训练技巧：

Anticipatory Routing：解耦路由索引计算与主干更新，历史参数预缓存，loss spike时自动触发，日常开销可忽略。
SwiGLU Clamping：线性分量钳制在[-10, 10]，门控上界设为10，简单有效。

V4开源MegaMoE，融合通信与计算至单pipeline kernel，在通用场景加速1.5–1.73倍，延迟敏感场景最高达1.96倍。

专家分训，蒸馏合一

采用On-Policy Distillation（OPD）替代V3.2混合RL：先独立训练数学、代码、Agent等领域专家，再以学生模型对十余位专家进行全词表logit蒸馏。

关键技术包括：

不缓存教师logits（显存受限），仅缓存最后一层隐藏状态，按需重建logits；
TileLang专用kernel加速KL散度计算；
引入Generative Reward Model（GRM），actor网络兼作奖励模型，联合优化评判与生成能力；
后训练阶段开展FP4量化感知训练，MoE专家权重与CSA索引器均支持FP4量化，且FP4→FP8反量化无损。

DeepSeek再度证实开源的力量

从V3到V4，DeepSeek持续以开源方式释放前沿技术，回应“百万长上下文”与“高性能Agent”两大趋势。

架构创新证明：无需牺牲性能，即可显著降低大模型应用门槛。

用户现已可通过官方App或chat.deepseek.com体验1M上下文能力——这不仅是对话框，更是能容纳整部百科全书、理解万行代码逻辑的「第二大脑」。

【声明】内容源于网络

0

0

人工智能产业链union

人工智能产业链联盟，旨在汇聚全球人工智能领域的创新力量，共同推动人工智能技术的研发、应用与产业化。联盟以基础技术、人工智能技术及人工智能应用为核心，打造了一个完整、高效、协同的人工智能生态链。

内容 2625

粉丝 1

人工智能产业链union 人工智能产业链联盟，旨在汇聚全球人工智能领域的创新力量，共同推动人工智能技术的研发、应用与产业化。联盟以基础技术、人工智能技术及人工智能应用为核心，打造了一个完整、高效、协同的人工智能生态链。

总阅读46.1k

粉丝1

内容2.6k