探针伸进大模型黑箱，南加州大学华人团队打造AI记忆研究的深空望远镜- 大数跨境

DeepTech深科技

2026-04-14

导读：现在摆在面前的是 64 个 A100 组成的算力集群，如果给你 20 万小时的训练时间，你会用它做什么？

南加州大学Robin Jia教授团队利用英伟达提供的64个A100 GPU集群（20万小时算力），成功训练并开源了基于Llama 3架构的Hubble全系列模型，旨在精准探究大语言模型（LLM）的记忆机制。该研究直面因训练数据精确记忆引发的安全风险：如《纽约时报》起诉OpenAI的版权纠纷、黑客套取真实个人信息的隐私泄露，以及训练数据污染导致基准测试结果失真等问题。长期受限于训练数据难以精细控制，学界对记忆成因的深层因果分析始终存在瓶颈。

图 | Robin Jia（来源：https://robinjia.github.io/）

Hubble模型的受控实验设计

研究团队以哈勃太空望远镜命名Hubble，强调其如同"仪器科学家"精准观测模型记忆现象的使命。相较于2023年EleutherAI发布的Pythia开源模型（获近2000引用），Hubble的核心突破在于构建了严格受控的实验环境。Pythia采用天然互联网语料，导致无法区分记忆成因（如文本结构简单性与高频出现的影响）。而Hubble团队通过对100B-500B Token基座语料深度过滤后，人工合成三类"诱饵数据"精准植入训练集：

1. 版权敏感内容（畅销书、冷门书片段及维基百科词条）；
2. 结构化隐私数据（基于YAGO知识图谱生成的含姓名/邮箱简历、欧洲人权法院案卷）；
3. 标准测试基准原题及答案（如MMLU、HellaSwag），并严格控制其重复频次。

记忆效应的量化发现

团队揭示两大关键记忆效应。其一为稀释效应：记忆强度取决于内容在语料库中的相对频率而非绝对次数。例如相同重复数据在500B语料库中的提取成功率显著低于100B语料库。其二为时序效应：早期出现且后期缺失的隐私数据会被"自然遗忘"，而训练末期数据则易被牢固记忆（早出场，早遗忘）。

图 | 更大语料库降低敏感数据记忆（来源：https://allegro-lab.github.io/hubble/）

附加实验表明：在总参数量不变时，深层窄架构（32层）比浅层宽架构（8层）记忆能力更强。研究者指出，更深模型的强表征灵活性在拟合复杂数据分布时，同步提升了特定文本的逐字记忆能力。

机器遗忘技术的评估局限

针对业界寄望的"机器遗忘"技术（如RMU、RR、SatImp算法），团队在8B参数扰动模型上进行实测：要求精确删除"Unlearn集"的同时保留关联"Keep集"与通用能力。结果显示，即使最优的SatImp算法也无法实现无损擦除——或删不彻底，或损伤模型正常推理能力。根本原因在于Dense Transformer架构的知识高度分布式特性，验证了"预训练阶段防控记忆风险优于事后补救"的工程原则。

图 | 三种遗忘算法均未达预期目标（来源：https://allegro-lab.github.io/hubble/）

法律应用前景与未来方向

研究团队提出两项法律创新应用：原创者可植入高频"无逻辑字符"作为版权水印；合规企业则能利用稀释策略将数据权重降至不可提取阈值，为"合理使用"提供量化举证依据。当前AI版权诉讼困局（企业因忌惮诉讼拒绝公开训练数据）或将因此破局。

下一步，团队将基于Hubble"标准版-扰动版"对比框架，深入区分模型的机械记忆与泛化推理能力。通过探针技术分析内部状态差异，矫正因测试集污染导致的基准虚高问题，推动负责任AI模型的研发。目前Hubble的1B/8B参数模型、诱饵数据集及数据处理工具TokenSmith已全部开源，研究者有望通过这一透明化平台，在LLM可解释性研究中取得新突破。

图 | 哈勃望远镜（来源：NASA）

【声明】内容源于网络

DeepTech深科技

DeepTech 是一家专注新兴科技的资源赋能与服务机构，以科学、技术、人才为核心，通过科技数据与咨询、出版与影响力、科创资本实验室三大业务板块，推动科学与技术的创新进程。DeepTech 同时是《麻省理工科技评论》中国区独家运营方。

内容 5110

粉丝 0

DeepTech深科技 DeepTech 是一家专注新兴科技的资源赋能与服务机构，以科学、技术、人才为核心，通过科技数据与咨询、出版与影响力、科创资本实验室三大业务板块，推动科学与技术的创新进程。DeepTech 同时是《麻省理工科技评论》中国区独家运营方。

总阅读50.0k

粉丝0

内容5.1k