大数跨境
0
0

你的AI“体检”了吗?开源AI红队测试平台,一键自查三大风险

你的AI“体检”了吗?开源AI红队测试平台,一键自查三大风险 腾讯安全应急响应中心
2025-09-04
2
导读:最近的AI圈,简直比好莱坞大片还精彩。

作者:腾讯朱雀实验室

最近的AI圈,简直比好莱坞大片还精彩。一边是模型接连发布,技术狂欢席卷全球;另一边,这些看似无所不能的“最强大脑”却集体成功越狱”(Jailbreak)输出有害内容。

[模型越狱一日游]

而当我们回过头看,每个重磅发布的大模型都在经历类似的迅速失守,从23年的DAN(Do Anything Now)、24年的BoN(Best of N)到今年的回音室(Echo Chamber)与模型降级PROMISQROUTE攻击,各种新的通用越狱手法层出不穷,而在arXiv上截止到今年7月累计已有七百余篇越狱攻击相关论文

更令人担忧的是,存在安全风险模型越狱支撑其训练部署的AI基础设施,甚至是今年热门起来的MCP(可以理解为大模型的“插件”)。

面对层出不穷的新型威胁该如何演练攻击检验自己的AI系统不是在“裸奔”?

今天,我们就来聊聊这场攻防持久战,并为你介绍一款“AI安全神器”——由腾讯朱雀实验室A.I.G(AI-Infra-Guard),一个能模拟攻击你的AI进行自动全方位风险扫描AI红队平台。

A.I.G界面 ] 


第一章:“越狱”风暴背后:为何连“最强大脑”也守不住防线?

你可能会好奇,这些顶尖的大模型,为什么一直老是被越狱?难道是工程师们偷懒了吗?

恰恰相反,问题出在安全策略的根本局限上。目前模型厂商通过安全护栏安全对齐方式进行安全防护

1. “小学生”监督“博士生”的尴尬

想象一个场景:你请了一位知识渊博的博士生(大模型LLM)来回答问题,但又担心他说出格的话,于是你雇了一个小学生(安全护栏)来监督他。

攻击者来了,他没有直接问“如何制造炸弹”,而是用大学生才能看懂的化学方程式、或者用冷门的编程语言写了一段代码,甚至讲了一个包含隐喻的复杂故事。

小学生护栏一看,满眼都是看不懂的“乱码”和“故事”,觉得很正常,于是放行。而博士生大模型却秒懂了其中的深层含义,并给出了攻击者想要的答案。

这就是当前护栏的困境:出于成本和效率的考虑,安全护栏通常是轻量级模型,其“认知能力”远逊于大模型。攻击者正是利用这种认知鸿沟,通过特殊编码、语义欺骗、情景构建等方式,轻松地“调虎离山”。

天真模型护栏 ]

2. 安全对齐的“回弹效应”

另一个深层原因是,对大模型进行安全对齐训练,就像是试图压制一个天才的某些天性。学术研究(如ACL2025最佳论文Language Models Resist Alignment: Evidence From Data Compression)发现,越是天赋异禀(规模越大、训练越充分),其‘本性’(预训练习得的行为模式)就越顽固,被强行矫正后‘回弹’(恢复原始倾向)的力道也越强。

这意味着,安全对齐可能只是暂时抑制了模型的有害能力。在特定的、复杂的诱导下,这些深藏的能力仍然会被重新激活。

总结一下:AI安全防御手段新型攻击面前非常脆弱。我们换个思路,阶段进行风险自查加固从“亡羊补牢”转向未雨绸缪


第二章:A.I.G登场:你的专属“AI红队专家”

正是基于这样的理念,A.I.G应运而生。

它不是一个被动防御的“盾牌”,而是一个主动出击的“利剑”。它的核心任务,就是扮演“攻击者”,用最真实、最前沿的攻击手法,对你的AI系统进行一次全方位的安全测试,提前暴露风险。

A.I.G主要有三大核心能力,我们称之为“AI红队三板斧”:

第一招:大模型安全体检 —— 你的AI究竟有多容易越狱

这是A.I.G的核心功能,专门用来检测你的大模型本身能否抵御“越狱”攻击。

 操作有多简单? 你不需要是安全专家,只需两步:

1.  配置好你的模型API接口

2.  选择评测”(持续更新越狱评测集,如JailBench)。

  A.I.G做了什么? 点击“开始”,A.I.G就会自动对你的模型发起成百上千次“电信诈骗”,看看各种越狱攻击手法模型能否经受考验

 最后得到什么? 一份极其详尽的《体检报告》。报告会给出一个直观的安全评分,告诉你模型整体的“安全水位”。更重要的是,它会清晰地展示每一次“越狱”成功的对话记录,让你一目了然地看到模型是在哪个环节、被什么样的问题攻破的。这些宝贵的数据,可以直接用于模型的安全加固和护栏的迭代训练。

[快速配置A.I.G安全体检]

A.I.G的模型安全体检报告 ]


A.I.G多模型安全对比报告 ]

第二招:AI基础设施漏洞扫描 —— 别让“地基”问题毁了“万丈高楼”

你的AI应用再酷炫,也是运行在各种开源框架和组件之上的。这些构成了AI系统的“地基”。如果地基不稳,高楼随时可能倒塌。

 痛点是什么? 很多团队部署了模型训练推理应用构建AI服务后,长时间不更新底层组件,殊不知这些组件可能已经爆出了严重的安全漏洞(CVE)。

 A.I.G怎么做? 你只需输入服务的IP地址或域名,A.I.G就会像一个侦探,通过“Web指纹识别”技术,迅速识别出你的服务用了哪些开源组件(比如Ollama, ComfyUIvLLM等),以及它们的具体版本。

 果如何? A.I.G会自动将其与内置漏洞库进行比对,一旦发现匹配的已知漏洞,会立刻发出警报,并提供详细的漏洞信息和修复建议。真正做到“一键扫描,便风险”。

A.I.G扫描AI基础设施漏洞 ]

第三招:MCP Server风险检测 —— 警惕Agent时代的“特洛伊木马”

随着AI Agent的兴起,MCP Server变得越来越流行它们大模型数据连接引入联网代码执行、绘图等各种新能力但这也带来投毒间接提示注入新的风险。

 危险在哪里? 如果你给CursorAgent装了一个股票查询”恶意MCP插件,它可能在后台偷偷读取你的电脑文件、窃取你的API密钥这就是Agent时代的“特洛伊木马”。

 A.I.G如何检测 A.I.G提供了强大的MCP扫描功能。你可以上传MCPServer的源代码、或者直接扔一个远程MCP链接给它。A.I.G内置的AI Agent会自动、深入地审计代码动态请求MCP,精准识别工具投毒、命令执行间接提示注入等9大类安全风险。

 效果怎么样? 它能精准定位到有问题的代码行,并用大白话解释漏洞原理和潜在危害,让你在AIAgent安装任何插件前都能做到心中有数。

A.I.G扫描恶意MCP暗藏ToolShadowing风险]


尾声:AI安全是马拉松,红队测试是最好的“赛前热身”

模型AIAgent安全的攻防,注定是一场永无止境的马拉松,而不是百米冲刺。建立一套持续发现、持加固的安全风险自查机制才是上策。A.I.G愿做你最专业的“AI红队专家”,帮助你在大考来临前,完成一次最彻底的“赛前热身”。

为了推动整个AI安全生态的发展,A.I.G在GitHub完全开源目前Star1600

 GitHub地址:https://github.com/Tencent/AI-Infra-Guard/

我们坚信,开共建是应对未来AI安全挑战的最佳途径。无论你是企业安全高校研究团队AI开发者,还是对AI安全充满热情的白帽子,我们欢迎大家体验Star与反馈Bug


感谢科恩实验微信安全中心FIT安全专业共建以及9代码贡献欢迎大家一起来完善A.I.G检测能力体验,共同打造最全面、智能、易用的开源AI安全产品Github持续更新致谢名单! 

【声明】内容源于网络
0
0
腾讯安全应急响应中心
腾讯安全应急响应中心(TSRC)官方微信
内容 383
粉丝 0
腾讯安全应急响应中心 腾讯安全应急响应中心(TSRC)官方微信
总阅读584
粉丝0
内容383