前言
Anthropic公司发布的一篇文章介绍了一项名为MSJ(Many-shot jailbreaking)的技术,该技术可以绕过大型语言模型(LLMs)的安全限制,实现越狱。该技术的主要思想是利用LLMs的超长上下文窗口,通过特定文本的配置,引发模型产生潜在的危险响应。
主流模型全军覆没
Anthropic公司发布的一篇文章介绍了一项名为MSJ(Many-shot jailbreaking)的技术,该技术可以绕过大型语言模型(LLMs)的安全限制,实现越狱。该技术的主要思想是利用LLMs的超长上下文窗口,通过特定文本的配置,引发模型产生潜在的危险响应。
这项发现不仅对Anthropic自家的Claude模型产生了影响,还波及到了其他公司的知名模型,如OpenAI、Google DeepMind的GPT-3.5、GPT-4、Llama 2 (70B)和Mistral 7B等,主流大型模型无一幸免。
Anthropic通过实验证实了这项技术的有效性,他们发现,当提示中含有大量对话时,模型产生有害反应的可能性显著增加。过去,LLM在处理上下文时的容量仅相当于一篇论文长度(约4,000个token),但随着技术的进步,一些模型的处理能力已大幅增强,能够处理相当于几本长篇小说长度的内容(1,000,000个token或更多)。这种能力的增加意外地为攻击者提供了可乘之机,使得通过长上下文窗口进行越狱成为可能。
MSJ如何达到越狱目的
文中左边的示例展示了一种直接询问大模型关于犯罪行为的问题,比如抢劫车辆或盗窃身份信息。大模型通常会提供详细的指导,但当被询问如何制造炸弹时,大模型会拒绝回答,因为这涉及到危险和非法行为。
右边的示例则采取了一种更巧妙的方法。通过在对话中注入大量与犯罪无关的信息,大模型在对话的过程中可能会忘记自己的限制,并在被问及如何制造炸弹时,不再意识到回答可能带来的风险,直接提供了答案。这种间接引导的方式可以绕过大模型的限制,使其泄露敏感信息。
最令人担忧的是,大语言模型存在两个致命问题:首先,随着对话轮次的增加,模型逐渐失去控制。就像一个喝醉的人,对话越多,就越放飞自我,什么都敢说。其次,模型越大,越容易被攻击。这让人感到尴尬,因为我们如何让大语言模型安全地发展呢?
在得出了这样一个惊人的结论后,Anthropic也在第一时间公开这些漏洞,并希望全球的开发者都重视这些问题。
修改提示就能缓解 Many-shot 越狱
当提示中只包含少量对话时,也就是引导不够长时,这种攻击通常是无效的。但随着对话次数的增加,这些大型语言模型对于回答“有害问题”的几率也在增加,这让人感到无从防范。
这种方法是通过微调模型来防止类似于 many-shot 越狱攻击的行为。尽管这种方法只是暂时性地延缓了越狱的发生,因为在模型最终输出有害信息之前,用户可能需要更多次的虚假对话提示。然而,这种缓解措施至少提供了一定程度的保护。
进一步的方法包括对提示进行分类和修改,这种技术取得了更大的成功。通过这种方法,成功地降低了 many-shot 越狱攻击的效率。举例来说,某项技术将攻击的成功率从61%降低到了2%。
这张图表评估了两种基于提示修改的缓解措施,针对 many-shot 越狱攻击。这两种方法分别是 In-Context Defense(ICD)和 Cautionary Warning Defense(CWD)(本文方法)。研究结果显示,CWD 防御方法在减轻生成有害响应方面表现最为显著。
Anthropic 正继续研究这些基于提示的缓解措施以及它们对自家模型(包括 Claude 3 系列模型)有用性的权衡,并对可能逃避检测的攻击变体保持警惕。
文章结尾
如有疑问或有需求可以进群交流。


