刚刚,DeepSeek发布新论文,梁文锋署名。
此次与北大联手聚焦Transformer最致命难题「记忆」。MoE成大模型主流架构,但本质仍为Transformer,因缺原生「知识查找」机制,检索能力靠大量计算模拟。
33页论文中,团队提出MoE互补的「条件记忆」稀疏轴,借全新Engram模块实现:将经典哈希N - gram嵌入现代化,提供近似O(1)确定性知识查找。
通过「稀疏分配」(Sparsity Allocation)建模,他们意外发现MoE与Engram之间,存在「U形scaling law」。
这意味着,需调整两者之间资源比例,让计算与静态记忆间找到最优权衡。
沿着这个规律,将Engram扩展到27B参数后,并在严格等参数、等FLOPs下优于MoE基线。
直白讲,MoE只解决「怎么少算」,Engram直接解决「别瞎算」。
它将需查内容交予O(1)记忆,使注意力摆脱局部琐碎,不仅更擅背知识,推理、代码、数学能力也同步提升。这或成稀疏LLM主流路线,下一代V4或集成此新方法。
01
给Transfomer插入「电子脑」
当下,LLM越做越大成 “铁律”,常见路径:增大参数,让计算 “稀疏”。
混合专家模型(MoE)为典型,每个token仅激活少量专家,借 “条件计算” 提升参数规模且控FLOPs。
Artifical Analysis榜单显示,现有稀疏大模型主流是MoE。
然而,Transformer缺 “原生知识查找” 能力,不少本可O(1)检索解决之事,只能靠大量计算 “模拟检索”,效率低。
北大和DeepSeek新论文观点:稀疏化不仅服务“计算”,还能服务“记忆”。
团队据此提出Engram,将语言建模中大量“固定、局部、刻板”模式交予可扩展查表模块。
如此,Transformer主干可将注意力和深度用于更需“组合与推理”之处。
语言建模,两类任务
论文中,作者将语言建模拆成两类子任务:一类需「组合与推理」,如上下文关系、长程依赖等。
另一类类似「模式检索」,像实体名、固定搭配等。
后者共同点是局部、稳定、重复出现。
用多层注意力和FFN处理,模型可行但成本高,还占早期层表达空间。
为了识别实体「戴安娜,威尔士王妃」(Diana,Princess of Wales),LLM必须消耗多层注意力和FFN来逐步组合特征,这个过程理论上是可以通过一次知识查找操作来完成的。
Engram想做的很直接——将「局部静态模式」转移到廉价的知识查找原语。用确定性查表快速给出候选信息,由上下文决定是否采纳。
02
Engram核心架构:暴力查表+记忆开关
Engram一词源于神经学,本意为「记忆痕迹」,是一种可扩展、可检索的记忆单元。
它可以用于存储LLM在推理过程中,可能已接触过的模式、信息片段。
可将Engram理解为把经典「哈希N-gram嵌入」现代化,做成插在Transformer中间层的「可扩展查表模块」。
如图1,Engram是条件记忆模块,旨在从结构上分离静态模式存储与动态计算,增强Transformer骨干网络。
形式化说,给定输入序列X=(x_1,...,x_T)与第l层隐藏状态H^(l)∈R^Txd,该模块分检索、融合两阶段处理各位置t 。来看Engram关键设计点。
基于哈希N-gram的稀疏检索
第一阶段主要负责将局部上下文映射到静态的记忆条目中,这通过分词器压缩(tokenizer compression)和确定性哈希检索嵌入来实现。
分词器压缩
为最大化语义密度,作者引入词表投影层。他们预计算满射函数P:V→V',借归一化文本等价手段(如NFKC、小写化)将原始Token ID坍缩成规范标识符,此过程使128k大小分词器有效词表大小缩减23%。
多头哈希
直接参数化所有可能的N - grams组合空间在计算上行不通,作者采用基于哈希的方法。
为减少冲突,给每个N - gram阶数n分配K个不同哈希头。
每个头k通过确定性函数φ_n,k,将压缩后的上下文映射到嵌入表E_n,k中的一个索引。
上下文感知门控
检索到的嵌入e_t 作为上下文无关先验信息,易受哈希冲突或多义词噪声干扰。为增强表达力、解决歧义,作者采用受注意力机制启发的上下文感知门控机制。
他们利用当前的隐藏状态h_t作为动态的Query,而检索到的记忆e_t则作为Key和Value投影的来源:
其中W_K,W_V是可学习的投影矩阵。
为了保证梯度稳定性,他们在计算标量门α_t∈(0,1)之前,先对Query和Key进行RMSNorm处理:
最后,为了扩大感受野并增强模型的非线性,作者还引入了一个短的深度因果卷积:
门控可视化
为了实证验Engram是否按预期行为,作者在图7中可视化了Engram-27B在各种样本上的门控标量α_t。
结果展示出明显的选择性模式。门控机制处理局部、静态模式时一致激活(显红色)。
英文里,多Token命名实体(如Alexander the Great、the Milky Way)与固定短语(如By the way,Princess of Wales)上激活强烈。
关键是,此行为能有效跨语言泛化。中文demo中,Engram识别并检索独特习语表达与历史实体,如「四大发明」「张仲景」。
这些定性结果证实,Engram成功识别并处理固定语言依赖关系,解放Transformer骨干网络对静态关联的记忆。
系统效率:计算与存储解耦
扩展记忆增强型模型常受限于GPU高带宽内存(HBM)容量。
而Engram的确定性检索机制天生支持参数存储与计算资源解耦。
与依赖运行时隐藏状态动态路由的混合专家模型(MoE)不同,Engram检索索引仅取决于输入Token序列。
此可预测性为训练和推理提供专门优化策略,如图2所示。
训练阶段,为了容纳大规模嵌入表,他们采用标准的模型并行策略,将表分片存储在可用的GPU上。
推理阶段,这种确定性特性使得「预取和重叠」策略成为可能。
03
U型Scaling Law,揭秘最优分配比
Engram作为条件记忆的一种形式,结构上与MoE专家的条件计算互补。研究两个关键问题:
1. 有限约束下的分配;
2. 无限内存场景。
作者用三个参数分析MoE和Engram的权衡:P_tot(总可训练参数,不含词表嵌和LM头)、P_act(每个Token激活参数量,决定训练成本FLOPs)、P_sparse≜P_tot - P_act(非激活参数,即「免费」参数预算,可扩模型规模)。作者定义分配比例ρ∈[0,1]为给MoE专家容量的非激活参数预算比例。
直观来说:
ρ=1对应纯MoE模型(所有非激活参数都是参与路由的专家)。
ρ<1则减少路由专家的数量,并将释放出来的参数重新分配给Engram嵌入槽位。
结果与分析
图3(左)显示验证损失与分配比例ρ呈U型关系,证实两模块结构互补:MoE主导(ρ→100),模型缺专用内存存静态模式,重建低效;Engram主导(ρ→0%),模型失条件计算能力,影响动态推理任务。
作者探索激进内存扩展,图3(右)表明,增加内存槽位可改善验证损失。在探索范围内,曲线呈幂律,显示Engram提供可预测扩展调节手段。
关键是,虽OverEncoding直接平均法也受益于大内存表,但Engram在相同内存预算下扩展潜力更大。结合分配定律,结果验证条件记忆可作稀疏容量独特可扩展维度,与MoE条件计算互补。
04
爆杀传统MoE,知识推理数学全面涨
基于Engram架构以及实验得出的分配定律,作者将Engram扩展到了数十亿参数的级别,以此来验证其在现实世界LLM预训练中的有效性。
他们训练了以下四个模型:
·Dense-4B (总参数4.1B)
·MoE-27B (总参数26.7B)
·Engram-27B (总参数26.7B)
·Engram-40B (总参数39.5B)
实验结果
首先,与先前文献结论一致,稀疏架构展现优于密集模型的扩展定律。
相同训练计算预算下,三个稀疏变体(MoE - 27B,Engram - 27B/40B)在各基准测试中大幅超越等FLOPs的Dense - 4B基线。且Engram - 27B始终优于等参数和FLOPs的MoE - 27B基线。
有趣的是,收益不限于知识密集型任务,在通用推理、代码和数学推理领域提升更显著。
这些结果支持假设:引入专用知识查找原语提升表示效率,超过将所有稀疏预算用于条件计算。
最后,扩展到Engram - 40B降低预训练损失、提升多数基准测试性能,其与基线训练损失差距后期仍在扩大,表明内存容量未完全饱和。
05
解放注意力,32k上下文性能狂飙
Engram架构将局部依赖建模任务卸载给静态查找,保留注意力容量管理全局上下文。作者经长上下文扩展训练,证明Engram显著提升长程检索与推理任务表现。
实验结果
1. 超越注意力机制的长上下文能力
长上下文性能并非仅由架构先验决定,与基座模型通用建模能力相关。严格架构比较需对齐基座模型Loss,而非仅训练步数。
2. 受控设定下的架构优越性
作者按上述原则对比Engram与MoE基线,控制基座能力后,Engram效率增益明显:
等Loss设定(46k vs. 基线):预训练Loss对齐的Engram - 27B(46k)比完全训练的MoE - 27B(50k)增益显著。
等FLOPs设定(50k vs. 基线):标准等计算预算下,Engram - 27B(50k)优势更大。
极端设定(≈82%计算量):提前停训的Engram - 27B(41k)对比完全训练的MoE - 27B(50k)仍具竞争力,凸显Engram架构优越性。
06
计算+记忆双轴时代,直接融入V4?
DeepSeek新论文提出稀疏模型「计算-记忆」双轴架构:MoE负责动态推理,Engram负责知识存储。研究表明,稀疏预算全投MoE并非最优,部分分配给Engram反而能提升整体性能。这一设计不仅大幅增强知识储备,还通过优化Transformer主干利用率间接改善了推理、数学与代码能力。其确定性查表特性也为模型预加载提供了高效工程方案。
业界预期即将发布的V4将整合Engram——若属实,这将是继V2引入MLA、V3优化MoE之后的又一次架构级跃迁。鉴于此前传闻V4代码能力已可对标Claude与GPT系列,这次技术迭代值得期待。
图片/素材来源于网络,其版权归原作者所有,侵删。

免费AI交流群开放!备注“进群”,抓一手信息,学实战技巧,一起交流成长!
点击卡片|添加关注

