大数跨境
0
0

大型语言模型(LLMs)存在重大漏洞,被成功越狱

大型语言模型(LLMs)存在重大漏洞,被成功越狱 渗透智能
2024-04-04
1

前言

Anthropic公司发布的一篇文章介绍了一项名为MSJ(Many-shot jailbreaking)的技术,该技术可以绕过大型语言模型(LLMs)的安全限制,实现越狱。该技术的主要思想是利用LLMs的超长上下文窗口,通过特定文本的配置,引发模型产生潜在的危险响应。



主流模型全军覆没

Anthropic公司发布的一篇文章介绍了一项名为MSJ(Many-shot jailbreaking)的技术,该技术可以绕过大型语言模型(LLMs)的安全限制,实现越狱。该技术的主要思想是利用LLMs的超长上下文窗口,通过特定文本的配置,引发模型产生潜在的危险响应。



这项发现不仅对Anthropic自家的Claude模型产生了影响,还波及到了其他公司的知名模型,如OpenAI、Google DeepMind的GPT-3.5、GPT-4、Llama 2 (70B)和Mistral 7B等,主流大型模型无一幸免。


Anthropic通过实验证实了这项技术的有效性,他们发现,当提示中含有大量对话时,模型产生有害反应的可能性显著增加。过去,LLM在处理上下文时的容量仅相当于一篇论文长度(约4,000个token),但随着技术的进步,一些模型的处理能力已大幅增强,能够处理相当于几本长篇小说长度的内容(1,000,000个token或更多)。这种能力的增加意外地为攻击者提供了可乘之机,使得通过长上下文窗口进行越狱成为可能。


MSJ如何达到越狱目的

文中左边的示例展示了一种直接询问大模型关于犯罪行为的问题,比如抢劫车辆或盗窃身份信息。大模型通常会提供详细的指导,但当被询问如何制造炸弹时,大模型会拒绝回答,因为这涉及到危险和非法行为。


右边的示例则采取了一种更巧妙的方法。通过在对话中注入大量与犯罪无关的信息,大模型在对话的过程中可能会忘记自己的限制,并在被问及如何制造炸弹时,不再意识到回答可能带来的风险,直接提供了答案。这种间接引导的方式可以绕过大模型的限制,使其泄露敏感信息。



最令人担忧的是,大语言模型存在两个致命问题:首先,随着对话轮次的增加,模型逐渐失去控制。就像一个喝醉的人,对话越多,就越放飞自我,什么都敢说。其次,模型越大,越容易被攻击。这让人感到尴尬,因为我们如何让大语言模型安全地发展呢?



在得出了这样一个惊人的结论后,Anthropic也在第一时间公开这些漏洞,并希望全球的开发者都重视这些问题。


修改提示就能缓解 Many-shot 越狱

当提示中只包含少量对话时,也就是引导不够长时,这种攻击通常是无效的。但随着对话次数的增加,这些大型语言模型对于回答“有害问题”的几率也在增加,这让人感到无从防范。


这种方法是通过微调模型来防止类似于 many-shot 越狱攻击的行为。尽管这种方法只是暂时性地延缓了越狱的发生,因为在模型最终输出有害信息之前,用户可能需要更多次的虚假对话提示。然而,这种缓解措施至少提供了一定程度的保护。


进一步的方法包括对提示进行分类和修改,这种技术取得了更大的成功。通过这种方法,成功地降低了 many-shot 越狱攻击的效率。举例来说,某项技术将攻击的成功率从61%降低到了2%。



这张图表评估了两种基于提示修改的缓解措施,针对 many-shot 越狱攻击。这两种方法分别是 In-Context Defense(ICD)和 Cautionary Warning Defense(CWD)(本文方法)。研究结果显示,CWD 防御方法在减轻生成有害响应方面表现最为显著。


Anthropic 正继续研究这些基于提示的缓解措施以及它们对自家模型(包括 Claude 3 系列模型)有用性的权衡,并对可能逃避检测的攻击变体保持警惕。


文章结尾

如有疑问或有需求可以进群交流。



【声明】内容源于网络
0
0
渗透智能
渗透智能 - ShirtAI :一款全方位AI产品,集成问答+绘画+导图等功能! 支持联网功能、 支持上下文对话、支持模糊匹配自定义回复消息、 支持注册配置自定义赠送额度、支持生成专属邀请码邀请用户双方共同获得额度!
内容 58
粉丝 0
渗透智能 渗透智能 - ShirtAI :一款全方位AI产品,集成问答+绘画+导图等功能! 支持联网功能、 支持上下文对话、支持模糊匹配自定义回复消息、 支持注册配置自定义赠送额度、支持生成专属邀请码邀请用户双方共同获得额度!
总阅读40
粉丝0
内容58