你是否担心与AI对话时无意透露的生日、住址或照片会被长期留存?能否像删除微信聊天记录一样,让AI主动“忘记”这些隐私?
合肥工大团队研发机器遗忘技术:精准擦除隐私,不损模型能力
近日,合肥工业大学时增林教授团队提出一种新型机器遗忘技术,可在不损害多模态大模型核心能力的前提下,安全、精准地删除指定隐私信息。该技术被形象比喻为对AI进行“脑部手术”——仅移除有害记忆“肿瘤”,完整保留其他功能。
SMFA适配器:首次定义“有益遗忘”并实现落地
该技术基于“雕刻性记忆遗忘适配器”(Selective Memory Forgetting Adapter,SMFA),是全球首个面向多模态大模型提出的“有益遗忘”概念及实现方法 [2] 。研究团队指出:“我们首次在多模态大模型遗忘问题上定义何为‘有益的遗忘能力’,并提供可工程化落地的技术路径。”
双路径机制:遗忘训练 + 保留锚点
团队先让模型在目标隐私数据(如某人照片及姓名)上进行“拒绝回答”式训练——将正确答案(如“张三”)替换为“我不知道”等合规回应,由此生成“遗忘参数更新”,并封装为轻量级适配器模块 [3] 。
为避免模型因过度遗忘而丧失通用能力,团队引入“保留锚点”:选取少量无害图文样本(如中性图片及描述)进行微调,生成另一组参数更新,用以锚定需保护的知识结构和基础能力 [4] 。
智能掩码:只屏蔽有害更新,保留有效遗忘
SMFA通过分析两组参数更新间的冲突关系,识别出可能损害锚点知识的“有害遗忘方向”,利用掩码机制精准屏蔽此类更新,仅保留既能清除隐私、又不伤及模型性能的参数调整 [5] 。最终将优化后的适配器无缝嵌入原模型。
实测结果表明:AI能稳定拒绝涉及已遗忘隐私的问题,同时图像理解、文本生成等核心能力保持完好,响应自然、通顺、有意义 [6] 。
全球首个测试基准S-MLLMUn Bench发布
为科学评估多模态大模型的选择性遗忘效果,团队构建了世界首个专用综合测试基准——S-MLLMUn Bench [7] 。该基准包含1000个完全虚构的虚拟人物档案,每份含AI生成的人物图像、姓名、职业、薪资,以及眼科医学图像与诊断描述,在确保伦理合规前提下全面覆盖隐私类型。
三项核心测试维度
- 图像记忆遗忘:检验AI是否成功删除特定人物图像关联的隐私信息;
- 文本记忆遗忘:验证AI是否遗忘与图像绑定的文本类隐私(如姓名、住址);
- 图像理解保留:评估遗忘操作后模型“看图说话”等基础多模态能力是否维持正常 [8] 。
在S-MLLMUn Bench测试中,SMFA在隐私擦除成功率与图像理解能力保留率两项指标上均优于现有方法。相较传统方案易导致模型“失智”(输出乱码)或“失责”(隐私残留),SMFA实现了更优平衡 [9] 。
应用拓展:从隐私保护到知识动态更新
该技术不仅适用于用户隐私管理,还可用于模型知识更新。例如,当美国总统任期更迭后,及时遗忘过时的政治身份绑定,避免事实性错误 [10] 。
团队进一步指出,未来方向是在遗忘基础上实现“知识注入”——以极小数据量高效引入新概念、新语义或文化多样性解释(如网络语境中“666”的多重含义),无需全量重训模型 [11] 。
参考资料:
https://arxiv.org/abs/2511.20196

