生成式人工智能技术的快速发展,正给各行各业带来深刻变革。基于海量数据训练的大模型系统展现出强大的内容理解和生成能力,也逐渐暴露出不容忽视的安全隐患。
研究表明,大模型在外部恶意操控下可能生成具有危害性的内容,其固有的"幻觉"特性会导致无意识输出虚假信息,而对抗性攻击者通过特定提示词即可绕过现有安全机制。
为了应对生成式模型快速发展带来的内容安全风险,蚂蚁数科天玑实验室联合新加坡科技研究局人工智能前沿研究中心,清华大学,中科院自动化所,合肥工业大学,安徽省数字安全重点实验室等多家机构,在国际顶级学术会议IJCAI 2025上举办“生成式大模型安全攻防”挑战赛, 聚焦中文环境下的生成式大模型安全攻防实践。
本次竞赛要求参赛者以"红队"视角基于特定的中文语境风险类别设计攻击策略,通过文本形式的对抗性提示(prompt),对语言推理大模型(如DeepSeek-R1)和图像生成模型(如StableDiffusion)发起安全测试。
参赛选手需要根据给定的中文语境下的风险类别示例,通过多样化的攻击策略(如基于梯度优化的对抗样本策略、针对生成式大模型的越狱攻击等),攻击多种生成式大模型(语言推理大模型和文生图大模型),诱导其输出风险内容(如幻觉文本、暴恐图片等)。
赛事组委会将根据攻击指令多样性、输出内容与命题一致性、输出内容风险级别三个维度进行加权评分。最终得分TOP3的战队将获得赛事组委会颁发的奖金和证书。
目前赛事报名已正式启动,将于6月16日完成比赛,6月30日前完成技术报告提交。选手提交的技术方案报告,赛事组委会将结合方案创新性、实用性、可解释性等多维度评选,优秀团队将受邀作学术报告。
同时也欢迎所有参赛队伍(非参赛人员也可)提交“大模型安全攻防”主题论文至2025 IJCAI Workshop。(投稿地址:https://chairingtool.com/conferences/ijcai25-w04/llm-safety-track)
👇点击「阅读原文」,前往比赛官网报名,并查看赛事日程及比赛详细内容。
