隐私计算需求背景概述- 大数跨境

首页

隐私计算需求背景概述

数组智控产业发展科技院

2022-02-09

导读：通信技术、网络技术和计算技术的持续演化与普慧应用，促进了“万物智慧互联、信息泛在共享”。随着新业态的不断演化

通信技术、网络技术和计算技术的持续演化与普慧应用，促进了“万物智慧互联、信息泛在共享”。

随着新业态的不断演化，用户数据频繁跨境、跨系统、跨生态圈交换已成为常态。大型互联网公司在服务用户的过程中通过采集、存留、交换、衍生等手段积累了海量数据。

用户数据中包含了大量的个人隐私信息，这些隐私信息在不同信息系统中有意或无意地留存，同时各个信息系统的数据保护能力和保护策略有很大差异，这些差异造成的某些系统短板效应导致隐私泄露的风险越来越突出。

隐私信息保护手段缺失、隐私信息滥用难以治理等问题已成为世界性难题，个人信息保护已被列入国家安全战略范畴。

为解决违背用户意愿过度使用或滥用个人信息的问题，隐私保护技术研究领域应运而生。

技术行业针对数据采集、位置服务、数据发布等不同应用场景提出了诸多解决方案，这些方案虽能在特定应用场景、特定假设条件下解决特定的隐私信息泄露问题，但当面对“万物互联”场景，尤其是大型信息服务系统的隐私泄露问题时，现有的隐私保护方案缺乏提供体系化的保护能力。

例如：

基于数据安全或脱敏的解决方案零散，没有从“计算”角度形成体系；
缺乏面向全生命周期和多模态隐私信息的脱敏模型；
隐私信息在泛在、不可预测地跨系统随机交换时不能受控共享；
隐私保护效果缺乏统一度量；
缺乏高效的隐私侵权判定和溯源机制；
服务商和监管机构的主被动监管缺乏实现手段等。

个人信息与隐私

《中华人民共和国民法典》中定义的个人信息是以电子或者其他方式记录的能够单独或者与其他信息结合识别特定自然人的各种信息，包括自然人的姓名、出生日期、身份证件号码、生物识别信息、住址、电话号码、电子邮箱、健康信息、行踪信息等。

《中华人民共和国民法典》定义隐私是自然人的私人生活安宁和不愿为他人知晓的私密空间、私密活动、私密信息。隐私信息是指个人信息中的敏感信息，是个人信息记录中的标识符、准标识符和敏感属性的集合。隐私反映了标识符、准标识符和敏感属性的关联关系。

隐私保护技术演化过程

一、隐私防护

隐私防护技术通过加密、安全计算、访问控制等技术，保护隐私信息不被未经授权获取的实体访问，且具有可逆性。

加密

加密是最常用的隐私防护技术。

个人信息经过加密后传输、存储和共享，只有拥有解密密钥才能解密并访问。

加密虽然保护了数据的安全性，但是对数据不能直接进行统计、处理、加工，会增加数据使用的复杂度。

针对加密数据处理，当前学术界和产业界广泛关注的两条技术路线是同态加密和基于可信计算环境的机密计算。

同态加密

指对密文进行函数计算f(E(x))，解密后等价于对明文x进行相应的函数计算，即加密函数E(x)和函数计算f(x)可以交换顺序，D(f(E(x)))=f(x)。

有了同态加密的支持，用户可以先将数据加密后交给云计算或者其他合作方，合作方对密文进行相应操作后，用户对密文解密得到对明文的计算结果。

RSA和Pailiar算法分别具有乘法和加法同态的性质，但是通用的计算需要对加法和乘法同时具有同态性质。

基于可信计算环境的机密计算

聚焦计算过程中的数据保护。

系统维护一个安全的空间，加密数据导入安全的内存空间后解密，对明文进行计算，调出空间时再加密。

其他用户无法访问该安全的内存空间，这样就降低了数据在系统其他部分泄露的风险，同时保持对用户的透明性。

特别是在多租户的公有云环境中，机密计算可保证敏感数据与系统堆栈的其他授权部分隔离。

2.安全多方计算

安全多方计算（Multi-Party Computation，MPC）最早源自Yao提出的安全两方计算协议“百万富翁问题”。计算参与方在不泄露自身敏感信息的条件下合作完成一个计算问题。随着研究进展，安全多方计算已经有一些实用案例。

波士顿妇女劳动力委员会于2017年使用MPC来计算114家公司166 705名员工的薪酬统计数据。出于隐私考虑，公司不会提供其原始数据，计算结果显示，波士顿地区的性别差距甚至比美国劳工统计局先前估计的差距还要大。

为了计算从广告到实际购买的准确转换率，Google计算了在线浏览商品广告的人员列表与实际购买商品的人员列表之间的交集大小。为了在不公开列表具体数据的情况下计算出该值，Google使用了一种隐私保护求交集的协议。尽管该协议效率还不理想，但其简单并且可以满足Google的计算要求。

3.访问控制

访问控制是实现隐私保护最重要手段。

隐私保护的本质是将隐私信息在适当的时间、以适当的方式分享给被授权的实体。

传统的访问控制系统中，权限是由系统管理者制定并实施，常用的访问控制策略包括自主访问控制、强制访问控制、基于角色的访问控制等。

在隐私保护场景中，权限和访问控制策略基本是由数据所有者来设置。

在社交网络、因特网服务等应用环境中，隐私信息往往会被好友转发，在不同服务商间跨系统、跨生态圈传播，因此延伸控制成为隐私保护场景中面临的最大问题。

加密也可以与访问控制相结合，基于属性的加密（Attribute Based Encryption，ABE）是一种有效地实现访问控制的加密方法。

在ABE中，用户拥有若干属性，每个属性分配一个公私钥对。

当加密一个明文时，加密方根据访问控制策略，选取相应属性的公钥构造加密密钥，此加密密钥可对明文直接加密，或对明文的加密密钥进行加密；

如果用户拥有符合访问控制策略对应的属性私钥时，选取相应属性的私钥构造解密密钥，类似地，就可以解密相应的密文。

ABE本质上是一个公钥加密体制，加解密速度比较慢。

二、隐私脱敏

隐私脱敏通过采用有失真且不可逆的方法对隐私信息进行保护，使脱敏后的信息无法与数据主体关联起来。

隐私脱敏包括但不限于现有的对数据中包含的隐私信息进行泛化（Generalization）、抑制（Suppression）、解耦（Anatomization）、置换（Permutation）、扰动（Perturbation）等方法，未来还需要在隐私脱敏方面进行新的理论创新。

隐私脱敏又常被称为隐私化或匿名化。

1.泛化

泛化是将一类属性中的特定值用一个更宽泛的值代替。比如一个人年龄为25岁，可以将其泛化为20~30岁；一个人的职业是程序员或者律师，可以将其泛化为白领（脑力劳动者）。

2.抑制

抑制是指发布信息时将某个属性、属性的值或者属性值的一部分以*代替。比如将手机号码表示为158*****609，身份证号码表示为3301******0021。

3.解耦和置换

解耦和置换都是去除准标识符和敏感属性间的关联性，而不改变准标识符或敏感属性的值。

解耦是将原始记录表分为两个表发布，一个表发布准标识符属性，另一个表发布敏感属性，两个表只有一个相同的GroupID作为共有属性。

置换是把一个数据记录集合划分成组，在组内对敏感值进行置换，从而打乱准标识符和敏感属性间的对应关系。

4.扰动

扰动的主要思想是用合成的数据值取代原始的数据值。

扰动后统计信息不发生显著改变，而且改变后的数据与真实数据主体失去关联性。

扰动的主要机制包括：加噪、数据交换、合成数据生成等。

加噪主要用于数值型数据的隐私保护，从一个特定分布的噪声中生成噪声值添加到敏感值上。

数据交换的主要思想是交换个人数据记录间敏感属性的值，可以保持统计分析的低阶频数统计或边沿分布。

合成数据生成的主要思想是依据数据构建一个统计模型，然后从模型上采样取代原始数据。

扰动因为简单、有效且可保持统计信息的特性，所以在统计发布控制中已经有很长的应用历史。

三、隐私保护的“四权”

GDPR（《通用数据保护条例》）对知情权、删除权、被遗忘权、延伸授权都做出了相关规定，其中知情权针对个人信息的采集和处理，删除权和被遗忘权针对个人信息的存储。

随着App的普及应用，虽然知情权并没有落实到位且成为隐私信息超范围采集的根源，但已经被大家所广泛重视。

在客观现实中，数据主体自愿提供部分隐私信息以获得个性化服务，但数据主体的删除权和被遗忘权是更值得关注的隐私保护问题，服务提供者对删除权和被遗忘权的忽视是隐私信息滥用的根源。

隐私信息的攸关方

是在隐私保护过程中隐私信息处理的参与方，具体包括以下5个方面：

（1）数据主体：指个人数据或个人信息的所有者。

（2）控制者：指决定隐私信息处理目的与方式的自然人或法人、公共机构或其他实体。

（3）处理者：指为控制者处理隐私信息的自然人或法人、公共机构或其他实体。

（4）接收者：指接收隐私信息的自然人或法人、公共机构或其他实体，不论其是否为第三方。

（5）第三方：指除了数据主体、控制者、处理者以及控制者或处理者直接授权的人之外，被授权处理个人数据的自然人或法人、公共机构、组织或其他实体。

延伸授权

在社交网络应用中，广泛存在个人信息被好友跨朋友圈、跨系统二次以上转发等问题。

因此在隐私信息传播过程中数据主体是否能对其个人信息跨系统交换进行延伸授权，实施延伸控制对隐私保护至关重要。

在GDPR（《通用数据保护条例》）等国内外隐私保护相关法规中并没有提到延伸授权的要求，但在信息泛在共享的时代，延伸授权是确保隐私信息受控共享的基础。

延伸控制是延伸授权的技术实现方法，是平衡隐私脱敏和隐私信息可用性不可缺少的有效机制。

虽然《中华人民共和国个人信息保护法》（草案）中要求了个人信息处理需要取得个人同意，个人信息的处理目的、处理方式和处理的个人信息种类发生变更的，应当重新取得个人同意，但在实际信息系统实现过程中，如果没有延伸控制机制的技术手段，法律的要求则很难落实。

【声明】内容源于网络

数组智控产业发展科技院

以AI技术为底层能力，聚焦智慧园区、城市公共安全、数智警务、健康医疗、能源电力、科研实验及平安校园等领域，提供从感知到决策的全流程软硬件一体化的国产装备智能体产品解决方案。

内容 986

粉丝 0

数组智控产业发展科技院以AI技术为底层能力，聚焦智慧园区、城市公共安全、数智警务、健康医疗、能源电力、科研实验及平安校园等领域，提供从感知到决策的全流程软硬件一体化的国产装备智能体产品解决方案。

总阅读2.8k

粉丝0

内容986