大数跨境

基本假设与隐私保护

基本假设与隐私保护 数组智控产业发展科技院
2022-03-14
2
导读:1 安全模型因为在多方计算中参与方的可信度不同,所以面临的数据安全性问题也不同。在信息安全领域,一般会根据参


1 安全模型


因为在多方计算中参与方的可信度不同,所以面临的数据安全性问题也不同。


在信息安全领域,一般会根据参与方的可信程度,将通信场景(如联邦学习的多方计算场景)分为以下三种安全模型场景。


定义1 在理想模型(Real-Ideal Model)场景中,参与计算的每一方都是可信的。


每一方都将严格按照协议规则计算相关结果并发送给其他参与方,不会进行多余的计算。


定义2 在半诚实模型(Semi-Honest Model)场景中,参与方被认为是半诚实的,即每一方都将按照协议规则计算相关结果并发送给其他参与方,但会根据其他参与方输入的信息或者交互的中间结果对有价值的额外信息进行推导。


定义3 在恶意模型(Malicious Model)场景中,参与方都是完全不可信的。


每一方都可能会不诚实地执行协议或者篡改数据,破坏协议的正常执行


如果在理想模型中进行多方计算,那么我们可以完全地信任其他参与方,也就无须使用隐私保护技术来隐藏敏感信息。


但现实并非如此,理想模型在现实场景中并不存在,我们只能依靠隐私保护技术去解决半诚实模型或者恶意模型场景中的隐私性问题,在非理想的场景中完成共享数据的需求。


当然,在传统的多方计算场景中,参与计算的各方虽然不是完全可信的,但是都会被某些协议、规则或者业务要求所束缚。


因此,以破坏协议正常运行为目的的恶意参与方也不常见。


2 隐私保护的目标


隐私保护的手段众多,从轻量级的K-匿名算法到复杂的密码学算法,都为数据的通信和共用提供了解决方案,为很多复杂但有意义的场景实现提供了可能。


这些算法虽然都能有效地保护数据隐私,但它们的原理却有着本质区别,当然对计算资源和通信量负载的要求也不同。


根据隐私保护的目标,我们可以将与联邦学习关系较为密切的隐私保护算法分为两大类:差分隐私算法和密码学方法。



定义4如果两个分布X和Y的统计距离是可忽略的,那么可以认为这两个分布是统计不可区分(Statistical Indistinguishability)的。


定义5 如果对任意多项式时间的算法D和任选的多项式p来说,区分两个分布的可能性满足以下条件,那么可以认为两个分布X和Y是计算不可区分(Computational Indistinguishability)的,满足式(2-1)。



Pr[a]表示事件a发生的概率。


以上两个定义描述了两种分布之间的相似关系。


通俗地讲,隐私保护就是将一个蕴含着统计信息的分布(或者可以用来进行机器学习的数据集)通过某种处理,使其与一个均匀分布(或者完全随机的、没有任何学习价值的数据集)的相似性达到某种不可区分的程度。


这就是隐私保护的目标,而这个“不可区分的程度”即所谓的隐私保护的程度。


举例来说,密码学方法作为一种隐私保护的手段,通过某种数学变换对明文进行处理,使得得到的密文与均匀分布达到计算不可区分的程度。


值得注意的是,隐私保护技术的目的是更好地为多方之间的通信和计算进行服务


我们在考虑隐私程度的同时,也不能忽略其实用性。


也就是说,我们应该在隐私程度和算法效率之间进行折中考虑,在业务效率可接受的范围内,最大化隐私保护程度。


在密码学研究中,正是基于这种折中的考虑,要求密码算法构造的密文与均匀分布达到计算不可区分的程度即可。


除了使用密码学的方法对数据进行加密从而对隐私进行保护的策略,还有K-匿名等传统的隐私保护方法,但这些传统的隐私保护方法在面对某些特殊的攻击方式时,用户的隐私性还是会受到影响的。


因此,“差分隐私”的概念应运而生。


差分隐私的提出重新定义了隐私的概念,默认敌手拥有较强的背景知识,且在这种情况下仍无法有效地区分相似数据集下的训练结果,即将两个相似数据集X和X'输入算法D,所得的输出结果相差不大。


因此,隐私保护的程度可以简单地分为以上三类。


其中,“统计不可区分”对应的隐私保护程度最强,使得处理后的分布(或数据集)与随机选取的均匀分布之间的统计距离达到了可以忽略的程度,也就是说,原始分布(或数据集)的信息在统计意义下被完全隐藏了;


“计算不可区分”对应的隐私保护程度稍弱于“统计不可区分”,是指使用现有的计算能力无法判断出两个不同分布(或数据集)的区别,如果不能区分处理后的分布与一个完全随机选取的均匀分布的差别,便无法从处理后的分布来恢复原始分布。


差分隐私重新对“隐私”进行了定义,将单个用户在某个数据集中的隶属关系定义为隐私,其对信息的隐藏程度也可通过定义中的参数进行调节。


以机器学习为例,差分隐私保证所用的算法无法区分两个相邻的数据集,即使数据集中除了某个特定用户之外的所有用户信息均被攻击者掌握,攻击者仍无法确定该用户是否在已有的训练数据集中,因此攻击者无法分析该用户的隐私,从而实现了隐私保护。


但在此过程中整个数据集的统计信息是没有隐藏的,也就是说,差分隐私就像对一张图片进行的马赛克处理,虽然图片的每一个具体像素已经变得不清晰,但是其整体轮廓依然能够被识别出来。


如果使用加密算法对数据集进行加密,那么处理后便与完全随机的数据集达到了计算不可区分的程度,就像把一张图片的像素重新打乱,修改后再组合,依靠我们现有的计算能力,图片上的信息已经很难被识别出来了。


【声明】内容源于网络
0
0
数组智控产业发展科技院
以AI技术为底层能力,聚焦智慧园区、城市公共安全、数智警务、健康医疗、能源电力、科研实验及平安校园等领域,提供从感知到决策的全流程软硬件一体化的国产装备智能体产品解决方案。
内容 986
粉丝 0
数组智控产业发展科技院 以AI技术为底层能力,聚焦智慧园区、城市公共安全、数智警务、健康医疗、能源电力、科研实验及平安校园等领域,提供从感知到决策的全流程软硬件一体化的国产装备智能体产品解决方案。
总阅读2.3k
粉丝0
内容986