大数跨境
0
0

人工智能安全系列 - 第一章:AI安全问题初探

人工智能安全系列 - 第一章:AI安全问题初探 杭州量安科技有限公司
2023-10-16
2
导读:随着人工智能(Artificial Intelligence, AI)技术的迅猛发展,AI已经成为了许多领域的核心驱动力,从自动驾驶到医疗诊断,再到智能助手,它们都在改变着我们的生活方式和工作方式。

一、引言

随着人工智能Artificial Intelligence, AI技术的迅猛发展,AI已经成为了许多领域的核心驱动力,从自动驾驶到医疗诊断,再到智能助手,它们都在改变着我们的生活方式和工作方式。然而,随之而来的是一系列安全问题,这些问题必须得到认真对待,以确保AI模型的可靠性和安全性。
针对AI模型的安全问题主要是指攻击者通过操控模型的训练或者推理阶段,使得模型针对特定的样本得到错误的输出,如分类错误等。简单来说,攻击者不关心数据或模型本身的隐私信息,而只是希望模型出错。目前主要的AI安全问题包括对抗攻击、投毒攻击和后门攻击三种,与之相关的检测及防御也需要重视。

二、对抗攻击与防御

2.1 什么是对抗攻击?

对抗攻击是指对输入数据添加精心设计的微小扰动,这种扰动对人眼是不可见的,但会使AI模型产生错误的预测结果。这类攻击可能导致在实际应用中产生严重后果,例如在自动驾驶系统中引导错误行为,或者在医疗诊断中产生误导性的结果。如图1所示,一张"猫"的图片在添加扰动后被分类模型识别为置信度99%的"狐狸"。

1 对抗攻击示意图

2.2对抗攻击的类型

通过对输入数据添加人眼不可见的扰动,诱导模型做出错误的预测结果。给定输入 和对应的标签,攻击者在输入数据中添加扰动,使得深度模型分类器被误导为,得到对抗样本为,其中,扰动的大小满足,p表示衡量对抗样本和干净样本的范式,可为1、2、∞,为扰动的最大值。

2 对抗攻击分类

如图2所示,对抗攻击可以按如下方式进行分类:
白盒攻击攻击者完全了解目标模型的内部结构、超参数等信息,攻击能力较强,但出于模型安全考虑,攻击者很难获取到这些信息,因此白盒攻击一般不适用于实际应用场景。
黑盒攻击攻击者只知道模型的输入输出行为,但对内部结构一无所知,通过查询等方式推理模型结构生成对抗样本,这种攻击的成功率比白盒攻击低,但更贴合实际情况。
目标攻击攻击者在攻击模型之前指定对抗样本的分类类别,例指定类别“猫”的样本被攻击为类别“狗”,攻击难度较高。
无目标攻击不指定攻击类别,只要被模型错误识别即可。

2.3防御对抗攻击的方法

如图3所示,防御方法可以分为对抗样本检测和模型鲁棒性增强,前者发生在样本输入模型之前,通过对抗样本和干净样本之间的差异检测对抗样本并拒之输入到模型实现防御,成本较低,后者通过对抗训练等方式提升模型自身的鲁棒性,使其正确识别对抗样本的类别。

3 对抗防御分类

2.3.1对抗样本检测

特征检测寻找对抗样本和干净样本之间的差异性特征实现。
模型一致性检测将对抗样本输入到多个模型中,比较返回结果是否一致,若不一致则为对抗样本。
2.3.2模型鲁棒性增强
对抗训练通过在训练过程中加入对抗样本,使得模型在面对对抗攻击时更加鲁棒。
输入预处理在样本输入模型之前,利用去噪或构建网络模块等手段去除对抗样本的扰动,

三、投毒攻击与防御

3.1什么是投毒攻击?

投毒攻击是指攻击者有意修改训练数据,以影响模型的训练过程,使其产生错误的预测结果。如果使用潜在不可信来源的数据(如YouTube、Twitter)来训练机器学习模型的话,攻击者很容易在模型训练时,通过插入精心设计的样本来达到改变原有数据集分布、改变模型行为、降低模型性能、和为具有特定模式样本留出后门等多种目的。投毒攻击不仅在学术界备受关注,在工业界也带来了严重危害。例如在2016年,微软发布了Twitter聊天机器人Tay。然而仅在16小时后就被微软关闭,因为其在用户投毒影响下被“教坏”,并发布种族歧视、支持希特勒等言论。这一事件为我们敲响了机器学习模型安全问题的警钟。

3.2投毒攻击的类型

如图4所示,投毒攻击根据其攻击形式可以分为数据投毒与模型投毒。数据投毒旨在将恶意数据,如错误标记的数据、特定隐藏模式的数据等,加入到训练样本使得模型在预测时产生错误的输出。模型投毒可以针对一些分布式训练场景,如联邦学习,恶意用户上传经过恶意操作(如在后门任务上训练或经过特定修改的损失函数上训练)的梯度来达到影响主模型的效果。模型投毒概念较为宽泛,数据投毒也可认为时模型投毒的一部分。但模型投毒更侧重于改变模型的预测行为,而数据投毒更侧重于干扰模型的训练过程。

4 投毒攻击类型

一般而言,投毒攻击的过程中需要模型、训练数据、以及目标函数。攻击者会插入经过修改的数据去优化目标函数:

3.3防御投毒攻击的方法

5 投毒攻击的防御方法

如图5所示,投毒攻击的防御方法可以分为两大类:数据保护与算法保护。
数据保护为被动防御方法,旨在对数据集进行清理与数据来源验证。数据过滤旨在在使用训练数据之前,进行数据清洗,检测并移除异常、离群值和可能的恶意样本,以减轻投毒攻击的影响。数据验证旨在验证数据源的可信度,确保数据采集过程受到保护,以减少数据被污染的风险。
算法保护为主动防御方法,侧重于防患于未然,提前采取措施。鲁棒学习方法,如鲁棒PCA的鲁棒机器学习算法等,在训练过程中进行设计以增强模型对恶意样本的抵抗能力。数据增强方法,在模型训练时使用一些特定的数据增强方法,如Mixup与CutMix,也能有效地增强模型地鲁棒性。

四、后门攻击与防御

4.1什么是后门攻击?

后门攻击是指攻击者在训练或部署阶段在模型中插入了恶意的“后门”,使得模型在特定的输入下产生错误的预测结果。后门攻击方基于触发器或后门模式对正常样本进行处理, 得到中毒样本 , 即 ,并为该中毒样本指定目标标签为 , 然后将多个中毒数据对( , ) 和正常数据( , )一起组成新的训练数据集, 用来训练神经网络模型, 得到注入后门的模型  。当使用该模型对正常样本进行预测 时 , 模型仍然可以得到正确的预测结果 而当使用该模型对带有触发器的中毒样本进行预测时, 模型会按照攻击者所指定的目标类别标签输出, 即。

4.2后门攻击的类型

如图6所示,后门攻击可分为数据中毒与模型中毒两种类型:

6 后门攻击分类

数据中毒攻击攻击者随机选择任意图案作为触发器,将其嵌入部分训练数据中并修改它们的标签, 以此构造中毒数据集,接着通过训练将触发器特征与目标标签建立强连接。
模型中毒攻击攻击者无需操纵训练数据集,选定特定神经元集合后利用逆向工程生成触发器与部分数据,按照数据中毒攻击构造中毒数据集并执行模型训练过程,以此将后门嵌入模型并返回给用户。

7 后门防御方法

4.3后门防御方法

如图7所示,典型的模型后门防御方法有以下几种:
基于修剪的防御主要思想是修剪与后门相关的不活跃的神经元,以去除隐藏的后门。方法包括删除与激活映射的范数值高的神经元。
基于触发器合成的防御不直接消除隐藏的后门,而是首先合成潜在的触发器,然后在第二阶段抑制它们的效果以去除隐藏的后门。
基于显著性图的防御使用显著性图来识别潜在的触发器区域,以过滤恶意样本。例如,一些方法使用显著性图来提取关键区域,然后基于边界分析来定位触发器区域。
基于样本的防御通过将各种图像模式叠加到可疑图像上,并观察它们的预测随机性,来过滤恶意样本。

五、结论

理解和解决AI安全问题至关重要,特别是在涉及到安全敏感的应用场景中。对抗攻击、投毒攻击和后门攻击都是需要认真应对的威胁,但通过合适的防御策略和持续的监控,我们可以确保AI模型的安全性和可靠性。




关于我们


杭州量安科技有限公司(以下简称量安科技)成立于 2022年,由之江实验室孵化,专注于后量子密码、高性能国密和数据安全领域,为政务、金融、大型企业、军工、医疗等领域提供新一代密码产品和服务。量安科技成立之初即获得数十家知名投资机构青睐,目前已完成三轮融资,共计数千万元,并获杭州市余杭区顶尖人才政策支持。同时,公司牵头主持密码相关国家重点研发计划,并多次获得行业内重要奖项,包括2022 年全球数字贸易博览会先锋奖银奖(年度最高奖)、2022 第三届中国数字经济科技大会年度最具竞争力产品创新奖、2022 第三届中国数字经济科技大会年度数据安全金盾奖等。


往期回顾

量安科技宣布完成A轮融资,持续深耕后量子密码领域

郑纬民院士到访量安科技

余杭区委常委、常务副区长梅建胜、余杭国投总经理陈国建一行4人一行莅临量安科技走访调研

【声明】内容源于网络
0
0
杭州量安科技有限公司
杭州量安科技有限公司由之江实验室孵化、院士领衔,是国内首家专注于后量子密码研究与产业应用的公司,为电力、政务、金融、军工、医疗等领域提供新一代密码产品和服务。
内容 53
粉丝 0
杭州量安科技有限公司 杭州量安科技有限公司由之江实验室孵化、院士领衔,是国内首家专注于后量子密码研究与产业应用的公司,为电力、政务、金融、军工、医疗等领域提供新一代密码产品和服务。
总阅读17
粉丝0
内容53