首页

DeepSeek V4架构首曝！梁文锋新论文直指Transformer“致命缺陷”

觉醒AI科技

2026-01-13

点击上方蓝字关注我们

刚刚，DeepSeek发布新论文，梁文锋署名。

此次与北大联手聚焦Transformer最致命难题「记忆」。MoE成大模型主流架构，但本质仍为Transformer，因缺原生「知识查找」机制，检索能力靠大量计算模拟。

33页论文中，团队提出MoE互补的「条件记忆」稀疏轴，借全新Engram模块实现：将经典哈希N - gram嵌入现代化，提供近似O(1)确定性知识查找。

通过「稀疏分配」（Sparsity Allocation）建模，他们意外发现MoE与Engram之间，存在「U形scaling law」。

这意味着，需调整两者之间资源比例，让计算与静态记忆间找到最优权衡。

沿着这个规律，将Engram扩展到27B参数后，并在严格等参数、等FLOPs下优于MoE基线。

直白讲，MoE只解决「怎么少算」，Engram直接解决「别瞎算」。

它将需查内容交予O(1)记忆，使注意力摆脱局部琐碎，不仅更擅背知识，推理、代码、数学能力也同步提升。这或成稀疏LLM主流路线，下一代V4或集成此新方法。

01

给Transfomer插入「电子脑」

当下，LLM越做越大成 “铁律”，常见路径：增大参数，让计算 “稀疏”。

混合专家模型（MoE）为典型，每个token仅激活少量专家，借 “条件计算” 提升参数规模且控FLOPs。

Artifical Analysis榜单显示，现有稀疏大模型主流是MoE。

然而，Transformer缺 “原生知识查找” 能力，不少本可O(1)检索解决之事，只能靠大量计算 “模拟检索”，效率低。

北大和DeepSeek新论文观点：稀疏化不仅服务“计算”，还能服务“记忆”。

团队据此提出Engram，将语言建模中大量“固定、局部、刻板”模式交予可扩展查表模块。

如此，Transformer主干可将注意力和深度用于更需“组合与推理”之处。

语言建模，两类任务

论文中，作者将语言建模拆成两类子任务：一类需「组合与推理」，如上下文关系、长程依赖等。

另一类类似「模式检索」，像实体名、固定搭配等。

后者共同点是局部、稳定、重复出现。

用多层注意力和FFN处理，模型可行但成本高，还占早期层表达空间。

为了识别实体「戴安娜，威尔士王妃」（Diana，Princess of Wales），LLM必须消耗多层注意力和FFN来逐步组合特征，这个过程理论上是可以通过一次知识查找操作来完成的。

Engram想做的很直接——将「局部静态模式」转移到廉价的知识查找原语。用确定性查表快速给出候选信息，由上下文决定是否采纳。

02

Engram核心架构：暴力查表+记忆开关

Engram一词源于神经学，本意为「记忆痕迹」，是一种可扩展、可检索的记忆单元。

它可以用于存储LLM在推理过程中，可能已接触过的模式、信息片段。

可将Engram理解为把经典「哈希N-gram嵌入」现代化，做成插在Transformer中间层的「可扩展查表模块」。

如图1，Engram是条件记忆模块，旨在从结构上分离静态模式存储与动态计算，增强Transformer骨干网络。

形式化说，给定输入序列X=(x_1,...,x_T)与第l层隐藏状态H^(l)∈R^Txd，该模块分检索、融合两阶段处理各位置t 。来看Engram关键设计点。

基于哈希N-gram的稀疏检索

第一阶段主要负责将局部上下文映射到静态的记忆条目中，这通过分词器压缩（tokenizer compression）和确定性哈希检索嵌入来实现。

分词器压缩

为最大化语义密度，作者引入词表投影层。他们预计算满射函数P:V→V'，借归一化文本等价手段（如NFKC、小写化）将原始Token ID坍缩成规范标识符，此过程使128k大小分词器有效词表大小缩减23%。

多头哈希

直接参数化所有可能的N - grams组合空间在计算上行不通，作者采用基于哈希的方法。

为减少冲突，给每个N - gram阶数n分配K个不同哈希头。

每个头k通过确定性函数φ_n,k，将压缩后的上下文映射到嵌入表E_n,k中的一个索引。

上下文感知门控

检索到的嵌入e_t 作为上下文无关先验信息，易受哈希冲突或多义词噪声干扰。为增强表达力、解决歧义，作者采用受注意力机制启发的上下文感知门控机制。

他们利用当前的隐藏状态h_t作为动态的Query，而检索到的记忆e_t则作为Key和Value投影的来源：

其中W_K，W_V是可学习的投影矩阵。

为了保证梯度稳定性，他们在计算标量门α_t∈(0,1)之前，先对Query和Key进行RMSNorm处理：

最后，为了扩大感受野并增强模型的非线性，作者还引入了一个短的深度因果卷积：

门控可视化

为了实证验Engram是否按预期行为，作者在图7中可视化了Engram-27B在各种样本上的门控标量α_t。

结果展示出明显的选择性模式。门控机制处理局部、静态模式时一致激活（显红色）。

英文里，多Token命名实体（如Alexander the Great、the Milky Way）与固定短语（如By the way，Princess of Wales）上激活强烈。

关键是，此行为能有效跨语言泛化。中文demo中，Engram识别并检索独特习语表达与历史实体，如「四大发明」「张仲景」。

这些定性结果证实，Engram成功识别并处理固定语言依赖关系，解放Transformer骨干网络对静态关联的记忆。

系统效率：计算与存储解耦

扩展记忆增强型模型常受限于GPU高带宽内存（HBM）容量。

而Engram的确定性检索机制天生支持参数存储与计算资源解耦。

与依赖运行时隐藏状态动态路由的混合专家模型（MoE）不同，Engram检索索引仅取决于输入Token序列。

此可预测性为训练和推理提供专门优化策略，如图2所示。

训练阶段，为了容纳大规模嵌入表，他们采用标准的模型并行策略，将表分片存储在可用的GPU上。

推理阶段，这种确定性特性使得「预取和重叠」策略成为可能。

03

U型Scaling Law，揭秘最优分配比

Engram作为条件记忆的一种形式，结构上与MoE专家的条件计算互补。研究两个关键问题：

1. 有限约束下的分配；

2. 无限内存场景。

作者用三个参数分析MoE和Engram的权衡：P_tot（总可训练参数，不含词表嵌和LM头）、P_act（每个Token激活参数量，决定训练成本FLOPs）、P_sparse≜P_tot - P_act（非激活参数，即「免费」参数预算，可扩模型规模）。作者定义分配比例ρ∈[0,1]为给MoE专家容量的非激活参数预算比例。

直观来说：

ρ=1对应纯MoE模型（所有非激活参数都是参与路由的专家）。

ρ＜1则减少路由专家的数量，并将释放出来的参数重新分配给Engram嵌入槽位。

结果与分析

图3（左）显示验证损失与分配比例ρ呈U型关系，证实两模块结构互补：MoE主导（ρ→100），模型缺专用内存存静态模式，重建低效；Engram主导（ρ→0%），模型失条件计算能力，影响动态推理任务。

作者探索激进内存扩展，图3（右）表明，增加内存槽位可改善验证损失。在探索范围内，曲线呈幂律，显示Engram提供可预测扩展调节手段。

关键是，虽OverEncoding直接平均法也受益于大内存表，但Engram在相同内存预算下扩展潜力更大。结合分配定律，结果验证条件记忆可作稀疏容量独特可扩展维度，与MoE条件计算互补。

04

爆杀传统MoE，知识推理数学全面涨

基于Engram架构以及实验得出的分配定律，作者将Engram扩展到了数十亿参数的级别，以此来验证其在现实世界LLM预训练中的有效性。

他们训练了以下四个模型：

·Dense-4B （总参数4.1B）

·MoE-27B （总参数26.7B）

·Engram-27B （总参数26.7B）

·Engram-40B （总参数39.5B）

实验结果

首先，与先前文献结论一致，稀疏架构展现优于密集模型的扩展定律。

相同训练计算预算下，三个稀疏变体（MoE - 27B，Engram - 27B/40B）在各基准测试中大幅超越等FLOPs的Dense - 4B基线。且Engram - 27B始终优于等参数和FLOPs的MoE - 27B基线。

有趣的是，收益不限于知识密集型任务，在通用推理、代码和数学推理领域提升更显著。

这些结果支持假设：引入专用知识查找原语提升表示效率，超过将所有稀疏预算用于条件计算。

最后，扩展到Engram - 40B降低预训练损失、提升多数基准测试性能，其与基线训练损失差距后期仍在扩大，表明内存容量未完全饱和。

05

解放注意力，32k上下文性能狂飙

Engram架构将局部依赖建模任务卸载给静态查找，保留注意力容量管理全局上下文。作者经长上下文扩展训练，证明Engram显著提升长程检索与推理任务表现。

实验结果

1. 超越注意力机制的长上下文能力

长上下文性能并非仅由架构先验决定，与基座模型通用建模能力相关。严格架构比较需对齐基座模型Loss，而非仅训练步数。

2. 受控设定下的架构优越性

作者按上述原则对比Engram与MoE基线，控制基座能力后，Engram效率增益明显：

等Loss设定（46k vs. 基线）：预训练Loss对齐的Engram - 27B（46k）比完全训练的MoE - 27B（50k）增益显著。

等FLOPs设定（50k vs. 基线）：标准等计算预算下，Engram - 27B（50k）优势更大。

极端设定（≈82%计算量）：提前停训的Engram - 27B（41k）对比完全训练的MoE - 27B（50k）仍具竞争力，凸显Engram架构优越性。

06

计算+记忆双轴时代，直接融入V4？

DeepSeek新论文提出稀疏模型「计算-记忆」双轴架构：MoE负责动态推理，Engram负责知识存储。研究表明，稀疏预算全投MoE并非最优，部分分配给Engram反而能提升整体性能。这一设计不仅大幅增强知识储备，还通过优化Transformer主干利用率间接改善了推理、数学与代码能力。其确定性查表特性也为模型预加载提供了高效工程方案。

业界预期即将发布的V4将整合Engram——若属实，这将是继V2引入MLA、V3优化MoE之后的又一次架构级跃迁。鉴于此前传闻V4代码能力已可对标Claude与GPT系列，这次技术迭代值得期待。

图片/素材来源于网络，其版权归原作者所有，侵删。