谷歌研究破解大模型关键信息


谷歌最新研究指出,通过模型API访问,可低成本提取大模型的关键信息,如隐藏维度大小及投影矩阵。这表明仅需不到2000次查询,成本低于20美元即可实现。
核心方法:攻击嵌入投影层
研究团队主要针对模型最后一层——嵌入投影层进行攻击,通过大量针对性查询和奇异值排序技术确定隐藏维度。
例如,在Pythia 1.4B模型中,通过超过2048次查询发现峰值出现在第2048个奇异值处,确认其隐藏维度为2048。
此外,可视化连续奇异值之间的差异也可用于验证是否成功提取关键信息。
研究背景与影响
此次研究由谷歌DeepMind主导,包括苏黎世联邦理工学院、华盛顿大学等机构的研究人员共同参与,甚至包含一位OpenAI研究员。
在实验过程中,谷歌团队已提前征得OpenAI同意,并在完成后删除所有相关数据。尽管具体数字未披露(如gpt-3.5-turbo的隐藏维度),但该研究引发业内广泛讨论。
论文提到防御措施包括从API端彻底移除logit bias参数或修改模型架构中最后一层隐藏维度等。
基于此,OpenAI调整了模型API策略,阻止类似操作再现。



