大数跨境

《数据安全法》合规实现跨主体大数据应用浅述

《数据安全法》合规实现跨主体大数据应用浅述 数组智控产业发展科技院
2021-06-18
1
导读:随着大数据的进一步发展,重视数据隐私和安全已经成为了世界性的趋势,同时,大多数行业数据呈现数据孤

      随着大数据的进一步发展,重视数据隐私和安全已经成为了世界性的趋势,同时,大多数行业数据呈现数据孤岛现象,如何在满足用户隐私保护、数据安全和政府法规的前提下,进行跨组织的数据合作是困扰人工智能从业者的一大难题。而“联邦计算”将成为解决这一行业性难题的关键技术。


      联邦计算又名联邦机器学习、联邦学习,联合学习,联盟学习。联邦机器学习是一个机器学习框架,能有效帮助多个机构在满足用户隐私保护、数据安全和政府法规的要求下,进行数据使用和机器学习建模。


一、客观难题

      AI 落地的时候,其实并不容易,会遇到很多现实的问题,比如:


1.1现实中,我们的数据质量是非常差的,例如聊天数据中有很多噪音;


1.2数据标签,收集是比较困难的,很多场景中的数据是没有标签的;


1.3数据是分散的,(这也是最重要的一点)每家应用的数据不一样,比如腾讯用的是社交属性数据,阿里用的是电商交易数据,微众用的是信用数据,都是分散来应用的。现实中,如何进行跨组织间的数据合作,会有很大的挑战。


      从09年到现在的10年时间内,国家关于数据的法律条例是趋向于严格化的,同时趋向于全面化,每个细分领域都纷纷出台了相应的条例和条款。相对来讲,让之前可行的一些数据合作方案变得不太可行。




二、联邦计算


      基于MPC、TEE、FL和DP 等技术的多方联合计算平台,为跨机构数据流通提供“可用不可见,相逢不相识”的极致安全体验。 


      可以解决金融、政府、医疗、互联网等客户在联合风控、联合营销、联合分析等场景的数据安全和隐私保护需求,实现数据价值极大释放。



三、联邦计算能够满足的特性


3.1数据安全:数据安全及隐私保护,联邦计算安全可控。


3.2稳定高效:采用集群分布式、并发计算、算法优化等策略,实现大规模数据计算,支持横向扩展。


3.3复杂运算:可编程可扩展,内置算法丰富,灵活满足复杂计算场景。


3.4灵活部署:可私有化部署,也可SaaS化部署,能够与区块链、边缘计算等业务进行有机融合。



四、联邦计算原理


4.1 数据核实


隐私数据求交集:可以得到正确的交集,不会得到交集以外另一方集合中的任何信息。


隐私合集判定:判断一个元素是否属于一个集合,不会暴露这个元素,实现流式数据核实。


4.2 匿踪查询


隐私信息查询:查询方仅仅知晓匹配的查询结果并且不留查询痕迹


4.3联邦分析


相关性分析、密文统计、联合分析,对接大数据平台,实现密文数据分析。


4.4联邦学习


各参与方无需共享交换各自数据进行联合建模,可进行横向联邦学习、纵向联邦学习。


内置多种机器学习算法,可以自定义开发算法。


五、联邦计算整体架构图


客户ID为唯一匹配主键,联邦计算过程由拥有Y(表现数据)的乙方发起,

如表现数据是违法事实,则由执法部门发起。



六、技术特性


数据隔离:联邦学习的整套机制在合作过程中,数据不会传递到外部。


无损:通过联邦学习分散建模的效果和把数据合在一起建模的效果对比,几乎是无损的。


对等:合作过程中,合作双方是对等的,不存在一方主导另外一方。


共同获益:无论数据源方,还是数据应用方,都能获取相应的价值。



七、联邦计算分类体系


纵向联邦学习:两个数据集的用户 ( U1, U2, … ) 重叠部分较大,而用户特征 ( X1, X2, … ) 重叠部分较小;


横向联邦学习:两个数据集的用户特征 ( X1, X2, … ) 重叠部分较大,而用户 ( U1, U2, … ) 重叠部分较小;


联邦迁移学习:通过联邦学习和迁移学习,解决两个数据集的用户 ( U1, U2, … ) 与用户特征重叠 ( X1, X2, … ) 部分都比较小的问题。


需要根据各自数据源的数据情况,选择合适的联邦计算方案



八、同态加密技术


同态加密技术,对X\Y两组数据进行加密,加密后两个数字的密文可以进行数学运算,比如加法,其结果依然是密文,对密文解密后得到的结果和它们明文的加法结果是一样的。



九、应用场景


9.1政务数据开放


政府机构可通过联邦计算搭建统一规范、互联互通、安全可控的政务数据开放服务,促进数据交易市场培育,安全合规推动政务数据开放与共享


9.2金融联合风控


各方原始数据不出域的基础上打造金融数据共享基础设施,拓宽金融机构信贷风控的数据获取维度,构建一套包括黑名单共享在内的全流程联合风控体系


9.3工业制造联合建模


采用分布式本地部署架构,保障工业企业隐私数据去中心化,支持多个工业企业机构横向或纵向联邦学习提升工业模型效果,并通过匿踪查询对生产制造信息隐私保护


9.4广告联合营销


安全连接广告主、广告平台、数据合作方三方数据孤岛,打通用户行为全链路,为广告主提供更多维、更精准的群体画像,提升广告投放效果


十、物联网行业难题化解


与 AI 公司探索重塑机器视觉市场,利用联邦学习的机制,相对于本地建模,进一步提升算法准确率,并且形成网络效应,降低长尾应用成本,提升视觉业务总体利润率。



最后题外话——区块链+联邦计算


隐私是联邦学习的基本属性之一。


联邦学习需要使用隐私技术来保证数据的隐私安全。


目前已经使用的隐私技术包括安全多方计算(MPC、SMC等)、微分隐私、同态加密等。


同时也需要防止随机梯度下降的优化算法的参数更新带来的间接信息泄露。


联邦学习与分布式机器学习的最大区别是去中心化,这也是保护数据隐私的重要手段之一。


同时联邦学习还应该考虑恶意服务器或参与方利用错误的梯度搜集和参数更新破坏训练的正确性,这需要联邦学习提供数据的可审计性来保证参与方提供数据的安全性。


区块链同样作为一个去中心化的、不可变的、共享的分布式账本和数据库,它有很多优点适合来用于联邦学习的相关场景中。


区块链是一个去中心化分布式数据库,在整个区块链网络里的所有节点都有相同的权利,它规避了中心化系统数据可能泄露的弊端,加强了隐私保护和数据的安全。


区块链作为一个开放性系统,所有数据源都可以自行加入并进行模型的参数更新工作。


另外,区块链中的信息具有不可篡改和可以追溯的特性,这从较大程度上避免了恶意的数据源或不专业的数据源对系统的破坏。


因此,区块链(联盟链)在联邦学习上的应用,更加可以加强数据源数据的隐私性和系统的安全稳定性。

【声明】内容源于网络
0
0
数组智控产业发展科技院
以AI技术为底层能力,聚焦智慧园区、城市公共安全、数智警务、健康医疗、能源电力、科研实验及平安校园等领域,提供从感知到决策的全流程软硬件一体化的国产装备智能体产品解决方案。
内容 986
粉丝 0
数组智控产业发展科技院 以AI技术为底层能力,聚焦智慧园区、城市公共安全、数智警务、健康医疗、能源电力、科研实验及平安校园等领域,提供从感知到决策的全流程软硬件一体化的国产装备智能体产品解决方案。
总阅读2.8k
粉丝0
内容986