DeepSeek V4最大的遗憾- 大数跨境

首页

DeepSeek V4最大的遗憾

量子位

2026-05-03

152

导读：为啥大家都看好的模块缺席了？

henry 发自凹非寺
量子位

DeepSeekV4技术报告详细阐述了mHC、CSA、HCA、Muon和FP4等创新技术，但未提及Engram。

这一缺失引发行业热议：Engram去哪了？

Engram由DeepSeek和北京大学今年1月联合开源，专注解决大模型记忆与效率问题。自arXiv发布以来，业内持续探讨其技术价值。

该技术的核心优势在于：面对"伦敦是英国首都"等事实性问题，模型无需调用整个深层网络重新计算，可直接查表获取结果。

此举显著降低显存占用，同时释放深层网络资源用于高阶推理。

由于Engram被视为V4的架构基础，V4发布后，研究者第一时间在论文中搜索其踪迹，却未果。部分观点认为，缺少Engram使V4存在明显缺憾。

然而，Engram的实践探索仍在延续：CXL内存池化版本解决多机存储瓶颈，无冲突热层实验验证了架构优化方向，视觉Tiny Engram则将其拓展至多模态领域。

尽管V4未集成此技术，其理念已为下一代模型奠定基础。

Engram技术解析

2026年1月12日，DeepSeek与北大团队发布33页论文《Conditional Memory via Scalable Lookup》，揭示Engram本质：为Transformer添加原生知识查表模块。

传统Transformer混淆了动态推理与静态知识检索两种任务。例如识别"Diana, Princess of Wales"时，模型需经6层计算逐步解析，效率低下。

Engram通过插入查表模块优化流程：在Transformer第2层和第15层部署哈希查询，对token序列实时匹配海量嵌入表。门控机制确保语义一致性，如精准识别"张仲景"为固定历史实体。

该技术与MoE形成互补：MoE稀疏化计算资源，Engram稀疏化存储访问。实验证明，分配20%-25%稀疏参数给Engram可达到最优模型效果。

27B参数规模验证显示：在知识密集任务中表现优异（MMLU +3.4, CMMLU +4.0），通用推理与代码能力提升更显著（BBH +5.0, ARC-Challenge +3.7）。长上下文场景提升尤为突出，Multi-Query NIAH准确率从84.2%跃升至97.0%。

Engram不仅新增记忆功能，更通过释放早期层算力变相加深网络深度。LogitLens分析表明，Engram-27B第5层表征即媲美MoE基线第12层效果。

工程实现上，论文将千亿级嵌入表卸载至host DRAM，在H800推理中仅造成2.8%吞吐损失。依赖确定性索引实现CPU预取与GPU计算重叠，显著降低对HBM的依赖。

Engram的后续进展

研发团队未在V4中集成该技术，但学界持续推动实践落地。

CXL内存池化应用

3月10日，北大、阿里云等团队发布论文，验证CXL内存池对Engram的适配性。采用GPU HBM存储计算权重、本地DRAM作二级缓存、CXL池作三级存储，通过XConn交换芯片构建4TB共享内存池。集成至SGLang框架后，端到端吞吐损失低于5%，证实其为Engram的理想存储方案。

无冲突热层实验验证

1月23日，研究者TaoLin通过《A Collision-Free Hot-Tier Extension for Engram-Style Conditional Memory》实证检验多头哈希优化。设计Engram-Nine将记忆分层处理后，实验显示：消除高频N-gram冲突的"优化"方案并未稳定提升验证效果，反而在训练后期导致冷路径表现反超。