

大型语言模型（LLMs）存在重大漏洞，被成功越狱

渗透智能

2024-04-04

前言

Anthropic公司发布的一篇文章介绍了一项名为MSJ（Many-shot jailbreaking）的技术，该技术可以绕过大型语言模型（LLMs）的安全限制，实现越狱。该技术的主要思想是利用LLMs的超长上下文窗口，通过特定文本的配置，引发模型产生潜在的危险响应。

主流模型全军覆没

这项发现不仅对Anthropic自家的Claude模型产生了影响，还波及到了其他公司的知名模型，如OpenAI、Google DeepMind的GPT-3.5、GPT-4、Llama 2 (70B)和Mistral 7B等，主流大型模型无一幸免。

Anthropic通过实验证实了这项技术的有效性，他们发现，当提示中含有大量对话时，模型产生有害反应的可能性显著增加。过去，LLM在处理上下文时的容量仅相当于一篇论文长度（约4,000个token），但随着技术的进步，一些模型的处理能力已大幅增强，能够处理相当于几本长篇小说长度的内容（1,000,000个token或更多）。这种能力的增加意外地为攻击者提供了可乘之机，使得通过长上下文窗口进行越狱成为可能。

MSJ如何达到越狱目的

文中左边的示例展示了一种直接询问大模型关于犯罪行为的问题，比如抢劫车辆或盗窃身份信息。大模型通常会提供详细的指导，但当被询问如何制造炸弹时，大模型会拒绝回答，因为这涉及到危险和非法行为。

右边的示例则采取了一种更巧妙的方法。通过在对话中注入大量与犯罪无关的信息，大模型在对话的过程中可能会忘记自己的限制，并在被问及如何制造炸弹时，不再意识到回答可能带来的风险，直接提供了答案。这种间接引导的方式可以绕过大模型的限制，使其泄露敏感信息。

最令人担忧的是，大语言模型存在两个致命问题：首先，随着对话轮次的增加，模型逐渐失去控制。就像一个喝醉的人，对话越多，就越放飞自我，什么都敢说。其次，模型越大，越容易被攻击。这让人感到尴尬，因为我们如何让大语言模型安全地发展呢？

在得出了这样一个惊人的结论后，Anthropic也在第一时间公开这些漏洞，并希望全球的开发者都重视这些问题。

修改提示就能缓解 Many-shot 越狱

当提示中只包含少量对话时，也就是引导不够长时，这种攻击通常是无效的。但随着对话次数的增加，这些大型语言模型对于回答“有害问题”的几率也在增加，这让人感到无从防范。

这种方法是通过微调模型来防止类似于 many-shot 越狱攻击的行为。尽管这种方法只是暂时性地延缓了越狱的发生，因为在模型最终输出有害信息之前，用户可能需要更多次的虚假对话提示。然而，这种缓解措施至少提供了一定程度的保护。

进一步的方法包括对提示进行分类和修改，这种技术取得了更大的成功。通过这种方法，成功地降低了 many-shot 越狱攻击的效率。举例来说，某项技术将攻击的成功率从61%降低到了2%。

这张图表评估了两种基于提示修改的缓解措施，针对 many-shot 越狱攻击。这两种方法分别是 In-Context Defense（ICD）和 Cautionary Warning Defense（CWD）（本文方法）。研究结果显示，CWD 防御方法在减轻生成有害响应方面表现最为显著。

Anthropic 正继续研究这些基于提示的缓解措施以及它们对自家模型（包括 Claude 3 系列模型）有用性的权衡，并对可能逃避检测的攻击变体保持警惕。

文章结尾

如有疑问或有需求可以进群交流。

【声明】内容源于网络

渗透智能

渗透智能 - ShirtAI ：一款全方位AI产品，集成问答+绘画+导图等功能! 支持联网功能、支持上下文对话、支持模糊匹配自定义回复消息、支持注册配置自定义赠送额度、支持生成专属邀请码邀请用户双方共同获得额度！

内容 58

粉丝 0

渗透智能渗透智能 - ShirtAI ：一款全方位AI产品，集成问答+绘画+导图等功能! 支持联网功能、支持上下文对话、支持模糊匹配自定义回复消息、支持注册配置自定义赠送额度、支持生成专属邀请码邀请用户双方共同获得额度！

总阅读40

粉丝0

内容58