大数跨境
0
0

AAAI 2026 | 中科大团队推出LLM终身学习新范式:不仅要改得准,还要改得稳!

AAAI 2026 | 中科大团队推出LLM终身学习新范式:不仅要改得准,还要改得稳! AI TIME 论道
2025-12-09
0
导读:解读《On the Superimposed Noise Accumulation Problem in Sequential Knowledge Editing of Large Language

引言

大型语言模型在预训练阶段掌握了海量知识,常被用作知识库。然而,模型更新速度远不及现实世界变化,导致用户易受过时或虚假信息误导。

传统微调方法在更新知识时成本高且易引发灾难性遗忘,因此知识编辑技术应运而生。该技术旨在不重新训练模型的前提下,精准修改特定知识而不影响其他能力。但研究发现,在连续、大量编辑场景下,现有方法会导致模型记忆失效甚至语言能力崩溃。

中国科学技术大学研究团队近期发表论文《On the Superimposed Noise Accumulation Problem in Sequential Knowledge Editing of Large Language Models》,首次揭示大模型持续编辑中崩溃的根源——叠加噪声累积问题,并提出新方法 DeltaEdit 予以解决。

论文:https://arxiv.org/abs/2505.07899

代码:https://github.com/CaoD-USTC/DeltaEdit

背景:什么是知识编辑

与全模型微调不同,知识编辑采用“定位-编辑”范式,类似精准手术:

  • 定位:识别知识存储区域。研究表明,Transformer 中的前馈网络层具有键值对记忆功能,如“埃菲尔铁塔”为 Key,“在巴黎”为 Value。
  • 编辑:计算更新参数 ,注入目标权重  中(即 ),实现特定记忆修改。

图1 “定位-编辑”范式

问题:什么是“叠加噪声累积”

ROME、MEMIT 和 AlphaEdit 等方法在少量编辑中表现良好,但在连续编辑中性能急剧下降。随着编辑次数增加,更新参数不断累加,造成内部知识干扰,输出偏离目标。

图2 大模型持续编辑中的偏移问题

研究团队将此非线性恶化现象定义为“叠加噪声累积”。

叠加噪声

在连续编辑中,第  次编辑的目标输入为 ,实际总更新为所有历史更新  之和。理想情况下仅响应当前更新,但实际上历史更新也会错误响应,导致输出偏差。

研究团队定义叠加噪声(Superimposed Noise, )为“实际总影响”与“理想目标”的残差模长:

该公式量化了“额外作用力”对当前输出的影响程度。

叠加噪声的影响

研究人员在 GPT2-XL 和 Llama3-8B 上测试了平均叠加噪声  与编辑成功率的关系,结果如下:

图3 随编辑次数增加,噪声水平与编辑成功率的变化

  • 负相关性:随着  上升,编辑成功率断崖式下跌,过高噪声使模型无法激活正确知识,甚至丧失基本语言能力。
  • 阈值效应:性能下降呈非线性。当噪声超过临界点后,模型瞬间崩盘。此时编辑过程试图强行写入新知识,生成更激进的更新参数,反而加剧模型退化。

解决:如何消除噪声

噪声来源

研究团队将参数更新矩阵  分解为外积形式:

  • β(激活向量):决定更新在何种输入下被激活。
  • α(影响向量):决定更新如何改变输出。

通过展开  的表达式,得出噪声主要由两项乘积决定:

  • 激活干扰项 :衡量当前输入是否错误激活历史编辑。
  • 影响冲突项 :反映不同编辑间修改方向的冲突程度。

现有方法仅优化激活干扰项(提升 β 精准度),但由于参数空间有限,β 向量间难以完全正交。研究团队指出关键缺陷:

现有方法失败的根本原因在于只关注“何时触发”,却忽视了“触发后的相互干扰”(即未优化 α)。

空间避让—DeltaEdit

基于上述发现,研究团队提出 DeltaEdit,其核心思想是:在减小激活干扰的同时,强制新更新向量避开历史方向,实现“空间避让”。

第  次编辑的噪声可分解为:

其中第二项为新旧干扰噪声,通过让  避开历史影响向量可有效降低该项。DeltaEdit 设计两套机制实现避让:

1. 正交空间投影

训练影响向量 α 时,构建安全区限制其方向,避免与历史更新冲突:

  • 构建历史路障:维护累积历史更新矩阵 ,并通过协方差矩阵  表示“势力范围”:
  • 寻找零空间:对  进行 SVD 分解,提取主方向特征向量 ,构建正交投影矩阵 ,代表未被占用的“零空间”。
  • 强制投影:每次更新新影响向量  后,将其投影至零空间:,确保 

2. 动态阈值策略

为减少正交投影带来的计算开销,DeltaEdit 仅在噪声积累到危险水平时启动该机制:

  • 监控噪声水位:使用滑动平均跟踪历史干扰均值  和方差 

  • 设定动态阈值:计算阈值 ,其中  为敏感度系数。
  • 智能触发:
    • 若当前干扰 :环境安全,自由更新,优先保障学习效率;
    • 若当前干扰 :噪声临近破坏阈值,启动正交投影,优先保障模型稳定性。

实验:降噪增效

图4 各方法在编辑效果上的对比

图5 随编辑次数增加,噪声水平与编辑成功率的变化

研究团队在 Counterfact 和 ZsRE 数据集及多个大模型上评估 DeltaEdit,结果显示其编辑效果全面优于当前最优方法 AlphaEdit。同时,DeltaEdit 显著抑制了叠加噪声的增长,验证了其稳定性和有效性。更多实验细节详见原论文。

【声明】内容源于网络
0
0
AI TIME 论道
AI TIME是一群关注人工智能发展,并有思想情怀的青年学者创办的圈子,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索,链接全球AI学者,以辩论的形式探讨人工智能领域的未来
内容 2013
粉丝 0
AI TIME 论道 AI TIME是一群关注人工智能发展,并有思想情怀的青年学者创办的圈子,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索,链接全球AI学者,以辩论的形式探讨人工智能领域的未来
总阅读14.2k
粉丝0
内容2.0k