引言
大型语言模型在预训练阶段掌握了海量知识,常被用作知识库。然而,模型更新速度远不及现实世界变化,导致用户易受过时或虚假信息误导。
传统微调方法在更新知识时成本高且易引发灾难性遗忘,因此知识编辑技术应运而生。该技术旨在不重新训练模型的前提下,精准修改特定知识而不影响其他能力。但研究发现,在连续、大量编辑场景下,现有方法会导致模型记忆失效甚至语言能力崩溃。
中国科学技术大学研究团队近期发表论文《On the Superimposed Noise Accumulation Problem in Sequential Knowledge Editing of Large Language Models》,首次揭示大模型持续编辑中崩溃的根源——叠加噪声累积问题,并提出新方法 DeltaEdit 予以解决。
论文:https://arxiv.org/abs/2505.07899
代码:https://github.com/CaoD-USTC/DeltaEdit
背景:什么是知识编辑
与全模型微调不同,知识编辑采用“定位-编辑”范式,类似精准手术:
- 定位:识别知识存储区域。研究表明,Transformer 中的前馈网络层具有键值对记忆功能,如“埃菲尔铁塔”为 Key,“在巴黎”为 Value。
- 编辑:计算更新参数
,注入目标权重
中(即
),实现特定记忆修改。
图1 “定位-编辑”范式
问题:什么是“叠加噪声累积”
ROME、MEMIT 和 AlphaEdit 等方法在少量编辑中表现良好,但在连续编辑中性能急剧下降。随着编辑次数增加,更新参数不断累加,造成内部知识干扰,输出偏离目标。
图2 大模型持续编辑中的偏移问题
研究团队将此非线性恶化现象定义为“叠加噪声累积”。
叠加噪声
在连续编辑中,第
次编辑的目标输入为
,实际总更新为所有历史更新
之和。理想情况下仅响应当前更新,但实际上历史更新也会错误响应,导致输出偏差。
研究团队定义叠加噪声(Superimposed Noise,
)为“实际总影响”与“理想目标”的残差模长:

该公式量化了“额外作用力”对当前输出的影响程度。
叠加噪声的影响
研究人员在 GPT2-XL 和 Llama3-8B 上测试了平均叠加噪声
与编辑成功率的关系,结果如下:
图3 随编辑次数增加,噪声水平与编辑成功率的变化
- 负相关性:随着
上升,编辑成功率断崖式下跌,过高噪声使模型无法激活正确知识,甚至丧失基本语言能力。 - 阈值效应:性能下降呈非线性。当噪声超过临界点后,模型瞬间崩盘。此时编辑过程试图强行写入新知识,生成更激进的更新参数,反而加剧模型退化。
解决:如何消除噪声
噪声来源
研究团队将参数更新矩阵
分解为外积形式:
- β(激活向量):决定更新在何种输入下被激活。
- α(影响向量):决定更新如何改变输出。
通过展开
的表达式,得出噪声主要由两项乘积决定:

- 激活干扰项
:衡量当前输入是否错误激活历史编辑。 - 影响冲突项
:反映不同编辑间修改方向的冲突程度。
现有方法仅优化激活干扰项(提升 β 精准度),但由于参数空间有限,β 向量间难以完全正交。研究团队指出关键缺陷:
现有方法失败的根本原因在于只关注“何时触发”,却忽视了“触发后的相互干扰”(即未优化 α)。
空间避让—DeltaEdit
基于上述发现,研究团队提出 DeltaEdit,其核心思想是:在减小激活干扰的同时,强制新更新向量避开历史方向,实现“空间避让”。
第
次编辑的噪声可分解为:

其中第二项为新旧干扰噪声,通过让
避开历史影响向量可有效降低该项。DeltaEdit 设计两套机制实现避让:
1. 正交空间投影
训练影响向量 α 时,构建安全区限制其方向,避免与历史更新冲突:
- 构建历史路障:维护累积历史更新矩阵
,并通过协方差矩阵
表示“势力范围”:
。 - 寻找零空间:对
进行 SVD 分解,提取主方向特征向量
,构建正交投影矩阵
:
,代表未被占用的“零空间”。 - 强制投影:每次更新新影响向量
后,将其投影至零空间:
,确保
。
2. 动态阈值策略
为减少正交投影带来的计算开销,DeltaEdit 仅在噪声积累到危险水平时启动该机制:
- 监控噪声水位:使用滑动平均跟踪历史干扰均值
和方差
:


- 设定动态阈值:计算阈值
:
,其中
为敏感度系数。 - 智能触发:
- 若当前干扰
:环境安全,自由更新,优先保障学习效率; - 若当前干扰
:噪声临近破坏阈值,启动正交投影,优先保障模型稳定性。
- 若当前干扰
实验:降噪增效
图4 各方法在编辑效果上的对比
图5 随编辑次数增加,噪声水平与编辑成功率的变化
研究团队在 Counterfact 和 ZsRE 数据集及多个大模型上评估 DeltaEdit,结果显示其编辑效果全面优于当前最优方法 AlphaEdit。同时,DeltaEdit 显著抑制了叠加噪声的增长,验证了其稳定性和有效性。更多实验细节详见原论文。

