南加州大学Robin Jia教授团队利用英伟达提供的64个A100 GPU集群(20万小时算力),成功训练并开源了基于Llama 3架构的Hubble全系列模型,旨在精准探究大语言模型(LLM)的记忆机制。该研究直面因训练数据精确记忆引发的安全风险:如《纽约时报》起诉OpenAI的版权纠纷、黑客套取真实个人信息的隐私泄露,以及训练数据污染导致基准测试结果失真等问题。长期受限于训练数据难以精细控制,学界对记忆成因的深层因果分析始终存在瓶颈。
图 | Robin Jia(来源:https://robinjia.github.io/)
Hubble模型的受控实验设计
研究团队以哈勃太空望远镜命名Hubble,强调其如同"仪器科学家"精准观测模型记忆现象的使命。相较于2023年EleutherAI发布的Pythia开源模型(获近2000引用),Hubble的核心突破在于构建了严格受控的实验环境。Pythia采用天然互联网语料,导致无法区分记忆成因(如文本结构简单性与高频出现的影响)。而Hubble团队通过对100B-500B Token基座语料深度过滤后,人工合成三类"诱饵数据"精准植入训练集:
1. 版权敏感内容(畅销书、冷门书片段及维基百科词条);
2. 结构化隐私数据(基于YAGO知识图谱生成的含姓名/邮箱简历、欧洲人权法院案卷);
3. 标准测试基准原题及答案(如MMLU、HellaSwag),并严格控制其重复频次。
记忆效应的量化发现
团队揭示两大关键记忆效应。其一为稀释效应:记忆强度取决于内容在语料库中的相对频率而非绝对次数。例如相同重复数据在500B语料库中的提取成功率显著低于100B语料库。其二为时序效应:早期出现且后期缺失的隐私数据会被"自然遗忘",而训练末期数据则易被牢固记忆(早出场,早遗忘)。
图 | 更大语料库降低敏感数据记忆(来源:https://allegro-lab.github.io/hubble/)
附加实验表明:在总参数量不变时,深层窄架构(32层)比浅层宽架构(8层)记忆能力更强。研究者指出,更深模型的强表征灵活性在拟合复杂数据分布时,同步提升了特定文本的逐字记忆能力。
机器遗忘技术的评估局限
针对业界寄望的"机器遗忘"技术(如RMU、RR、SatImp算法),团队在8B参数扰动模型上进行实测:要求精确删除"Unlearn集"的同时保留关联"Keep集"与通用能力。结果显示,即使最优的SatImp算法也无法实现无损擦除——或删不彻底,或损伤模型正常推理能力。根本原因在于Dense Transformer架构的知识高度分布式特性,验证了"预训练阶段防控记忆风险优于事后补救"的工程原则。
图 | 三种遗忘算法均未达预期目标(来源:https://allegro-lab.github.io/hubble/)
法律应用前景与未来方向
研究团队提出两项法律创新应用:原创者可植入高频"无逻辑字符"作为版权水印;合规企业则能利用稀释策略将数据权重降至不可提取阈值,为"合理使用"提供量化举证依据。当前AI版权诉讼困局(企业因忌惮诉讼拒绝公开训练数据)或将因此破局。
下一步,团队将基于Hubble"标准版-扰动版"对比框架,深入区分模型的机械记忆与泛化推理能力。通过探针技术分析内部状态差异,矫正因测试集污染导致的基准虚高问题,推动负责任AI模型的研发。目前Hubble的1B/8B参数模型、诱饵数据集及数据处理工具TokenSmith已全部开源,研究者有望通过这一透明化平台,在LLM可解释性研究中取得新突破。
图 | 哈勃望远镜(来源:NASA)

