大数跨境

探针伸进大模型黑箱,南加州大学华人团队打造AI记忆研究的深空望远镜

探针伸进大模型黑箱,南加州大学华人团队打造AI记忆研究的深空望远镜 DeepTech深科技
2026-04-14
5
导读:现在摆在面前的是 64 个 A100 组成的算力集群,如果给你 20 万小时的训练时间,你会用它做什么?

南加州大学Robin Jia教授团队利用英伟达提供的64个A100 GPU集群(20万小时算力),成功训练并开源了基于Llama 3架构的Hubble全系列模型,旨在精准探究大语言模型(LLM)的记忆机制。该研究直面因训练数据精确记忆引发的安全风险:如《纽约时报》起诉OpenAI版权纠纷、黑客套取真实个人信息的隐私泄露,以及训练数据污染导致基准测试结果失真等问题。长期受限于训练数据难以精细控制,学界对记忆成因的深层因果分析始终存在瓶颈。

图 | Robin Jia(来源:https://robinjia.github.io/)

Hubble模型的受控实验设计

研究团队以哈勃太空望远镜命名Hubble,强调其如同"仪器科学家"精准观测模型记忆现象的使命。相较于2023年EleutherAI发布的Pythia开源模型(获近2000引用),Hubble的核心突破在于构建了严格受控的实验环境。Pythia采用天然互联网语料,导致无法区分记忆成因(如文本结构简单性与高频出现的影响)。而Hubble团队通过对100B-500B Token基座语料深度过滤后,人工合成三类"诱饵数据"精准植入训练集:

1. 版权敏感内容(畅销书、冷门书片段及维基百科词条);
2. 结构化隐私数据(基于YAGO知识图谱生成的含姓名/邮箱简历、欧洲人权法院案卷);
3. 标准测试基准原题及答案(如MMLU、HellaSwag),并严格控制其重复频次。

记忆效应的量化发现

团队揭示两大关键记忆效应。其一为稀释效应:记忆强度取决于内容在语料库中的相对频率而非绝对次数。例如相同重复数据在500B语料库中的提取成功率显著低于100B语料库。其二为时序效应:早期出现且后期缺失的隐私数据会被"自然遗忘",而训练末期数据则易被牢固记忆(早出场,早遗忘)。

图 | 更大语料库降低敏感数据记忆(来源:https://allegro-lab.github.io/hubble/)

附加实验表明:在总参数量不变时,深层窄架构(32层)比浅层宽架构(8层)记忆能力更强。研究者指出,更深模型的强表征灵活性在拟合复杂数据分布时,同步提升了特定文本的逐字记忆能力。

机器遗忘技术的评估局限

针对业界寄望的"机器遗忘"技术(如RMU、RR、SatImp算法),团队在8B参数扰动模型上进行实测:要求精确删除"Unlearn集"的同时保留关联"Keep集"与通用能力。结果显示,即使最优的SatImp算法也无法实现无损擦除——或删不彻底,或损伤模型正常推理能力。根本原因在于Dense Transformer架构的知识高度分布式特性,验证了"预训练阶段防控记忆风险优于事后补救"的工程原则。

图 | 三种遗忘算法均未达预期目标(来源:https://allegro-lab.github.io/hubble/)

法律应用前景与未来方向

研究团队提出两项法律创新应用:原创者可植入高频"无逻辑字符"作为版权水印;合规企业则能利用稀释策略将数据权重降至不可提取阈值,为"合理使用"提供量化举证依据。当前AI版权诉讼困局(企业因忌惮诉讼拒绝公开训练数据)或将因此破局。

下一步,团队将基于Hubble"标准版-扰动版"对比框架,深入区分模型的机械记忆与泛化推理能力。通过探针技术分析内部状态差异,矫正因测试集污染导致的基准虚高问题,推动负责任AI模型的研发。目前Hubble的1B/8B参数模型、诱饵数据集及数据处理工具TokenSmith已全部开源,研究者有望通过这一透明化平台,在LLM可解释性研究中取得新突破。

图 | 哈勃望远镜(来源:NASA)

【声明】内容源于网络
0
0
DeepTech深科技
DeepTech 是一家专注新兴科技的资源赋能与服务机构,以科学、技术、人才为核心,通过科技数据与咨询、出版与影响力、科创资本实验室三大业务板块,推动科学与技术的创新进程。DeepTech 同时是《麻省理工科技评论》中国区独家运营方。
内容 5110
粉丝 0
DeepTech深科技 DeepTech 是一家专注新兴科技的资源赋能与服务机构,以科学、技术、人才为核心,通过科技数据与咨询、出版与影响力、科创资本实验室三大业务板块,推动科学与技术的创新进程。DeepTech 同时是《麻省理工科技评论》中国区独家运营方。
总阅读50.0k
粉丝0
内容5.1k