作者简介
黄翠婷
上海富数科技有限公司数据科学家,博士,主要从事机器学习算法和隐私计算相关领域的理论与应用研究以及相关标准制定工作。
张 帆
中国移动通信集团信息技术中心大数据应用部副总经理,主要负责中国移动全网对外大数据产品发展规划和建设等工作。
孙小超
上海富数科技有限公司工程师,博士,主要从事隐私计算以及密码学相关领域的工程实现以及理论应用研究等工作。
卞 阳
上海富数科技有限公司副总经理,主要负责隐私计算的技术研发和协议研究等工作。
论文引用格式:
黄翠婷, 张帆, 孙小超, 等. 隐私集合求交技术的理论与金融实践综述[J]. 信息通信技术与政策, 2021,47(6):50-56.
隐私集合求交技术的理论与金融实践综述
黄翠婷1 张帆2 孙小超1 卞阳1
(1. 上海富数科技有限公司,上海 200126;2. 中国移动通信集团,北京 100033)
摘要:隐私集合求交技术是目前隐私计算领域的一个热点研究方向,作为跨机构间数据合作的一个常用的前置步骤,在实际场景中具有很强的应用价值。介绍了隐私集合求交技术的分类与相关的技术路线,并以基于盲签名的隐私集合求交技术为例,详细解析可参考的隐私集合求交技术的实现流程;同时,结合目前隐私计算技术应用落地最广泛的金融行业的实际场景需求,介绍隐私集合求交技术在金融行业的应用场景,包括金融联合建模、金融联合统计、金融联合营销、金融运营分析等,从实际场景体现隐私集合求交技术的研究与应用价值;最后,对目前的隐私集合求交技术面临的技术挑战及研究发展方向进行分析和探讨。
关键词:隐私集合求交;多方安全计算;联邦学习;隐私计算
中图分类号:TP309.7 文献标识码:A
引用格式:黄翠婷, 张帆, 孙小超, 等. 隐私集合求交技术的理论与金融实践综述[J]. 信息通信技术与政策, 2021,47(6):50-56.
doi:10.12267/j.issn.2096-5931.2021.06.006
0 引言
随着大数据与人工智能技术的发展与广泛落地应用,数据安全和隐私保护的需求日渐强烈,国内外相关法令法规相继制定,对数据安全与隐私保护相关问题进行严格的规范与引导,例如欧盟的《通用数据保护条例》(General Data Protection Regulation,GDPR)、美国的《加州消费者隐私法案 》(California Consumer Privacy Act,CCPA),以及中国的《中华人民共和国网络安全法》《数据安全法》《个人信息保护法》等。这些法规的制定在不同程度上对大数据、人工智能在各种场景中的数据处理模式提出新的挑战:不能平衡好数据服务与数据安全、隐私保护之间的关系,将严重阻碍大数据和人工智能的进一步发展。为了解决这些挑战,各种安全计算技术在近两年被广泛采用来解决跨机构间的数据合作问题,包括多方安全计算(Secure Multi-party Computation,MPC)、联邦学习(Federated Learning,FL)、可信执行环境(Trusted Execution Environment,TEE)等不同的技术路线。其中,隐私集合求交技术(Private Set Intersection,PSI)被认为是跨机构数据合作的前置步骤,实现跨源数据间的安全融合,也得到了广泛的关注和落地应用。本文从隐私集合求交的技术角度来介绍研究现状和实现机制,并结合典型的金融应用场景对隐私计算技术的具体落地应用进行了研究,最后分析了隐私集合求交技术目前面临的挑战和未来可能的发展方向。
1 隐私集合求交技术
1.1 朴素的隐私集合求交技术
朴素的隐私集合求交的思路是将双方集合中的元素按照约定好的函数规则映射到另一个空间中去,在该空间内接收方可以对映射之后的结果进行匹配。从这种朴素的思路出发,最直接的实现方法是将双方的集合元素逐一经过安全的杂凑函数进行映射,并在杂凑函数的值域内进行匹配。但是这种基于杂凑函数的直接方法在输入集合的熵较小的情况下,恶意的参与方可以通过线下暴力碰撞的方式计算出参与方的所有集合元素。在实际意义下,这种方法不能保护参与方的集合元素安全。
1.2 基于公钥体系的隐私集合求交技术
基于以上朴素的转换匹配空间的思想,运用公钥技术将原集合的元素映射到不同的空间,可以得到不同的基于公钥体制的PSI方案。
1986年,Meadows[1]提出了基于Diffie-Hellman问题的PSI协议,该协议类似于Diffie-Hellman密钥协商协议。双方以各自的输入集合中的元素作为DiffieHellman密钥协商中选择出的“随机数”角色,将集合元素映射到随机“会话密钥”空间,接收方在“会话密钥”空间中进行匹配,并获取到最终的交集元素。可以看出,该方案需要双方执行多次的模指数运算(这种代价很高的计算),因此所得的PSI方案效率并不高。
与基于杂凑函数的算法类似,同样可以在签名空间进行比对。例如,基于盲签名,发起方盲化本方输入的每个元素,向响应方的请求盲签名,获得结果并去盲后得到响应方私钥的签名。同时,响应方签名本方的每个元素,并将结果发送给发起方;发起方比对双方的签名结果,获得交集结果。
De Cristofaro与Tsudik[2]在2010年提出了基于RSA盲签名的PSI协议。在该协议中,响应方随机产生 RSA密钥;发起方对本方的每一个输入元素进行随机盲化,将结果发送给响应方;响应方使用RSA私钥对盲化结果进行签名并发送给发起方,同时将本方的输入元素用本方私钥进行签名,将结果发送给发起方;发起方对盲化的签名进行去盲,与响应方的签名进行比对,得出交集结果。
基于公钥体制的方案除了转换匹配空间之外,将参与方输入的集合元素看作是多项式的根,多项式可以与输入集合建立映射关系,对于多项式的某些操作可以转换为集合的某些操作。
2004年,Freedman[3]给出了基于不经意多项式取值算法的PSI协议。在该协议中,客户端假设本方的输入集中的所有元素为某一多项式的根,通过多项式插值法求出该多项式的系数。同时,客户端产生出半同态加密方案的公私钥对,用公钥将已获得的多项式系数列表进行加密,并将密文以及密钥全部发送给服务端。服务端根据收到的公钥和密文状态下的系数列表,对本方集合中的每个元素进行密态取值并随机盲化,并将结果返回给客户端。客户端收到反馈数据之后,挨个比对本方集合中每个元素所产生的值,确定本方的元素是否在交集之中。在该方案的执行过程中,需要插值计算产生一个高次多项式,该多项式的次数与客户端的元素个数相同,当客户端的元素较多时,多项式次数较高,产生高次多项式以及对高次多项式的密态计算都会有较大的计算开销。因此,可以将客户端的集合进行随机分桶来降低多项式次数。2016年,Freedman[4]在对集合元素采用杂凑运算来降低协议的计算复杂度,达到改进的效果。
同样是基于不经意多项式取值算法,Kissner与Song[5]运用多项式的特殊数学性质来设计PSI协议。将参与双方的集合运算分别映射到多项式之后,求交集运算等价于求解多项式的最大公因式。基于此思想,参与方将本方的多项式乘以一个随机因式之后展开,将得到多项式系数进行同态加密,然后传输给另一参与方;另一计算方在密态下计算双方多项式和式的值,并逐个元素取值解密,得出解密结果为0的元素为交集元素。
1.3 基于不经意传输的隐私集合求交技术
不经意传输(Oblivious Transfer,OT)是密码协议体系中的一个基础协议,由Rabin于1981年提出[6]。与最原始的概念相比,在更标准化的定义中,发送方拥有若干个输入,接收方输入一个索引下标,该索引下标表示接收方想要得到的结果,在协议过程中这一指标并不会泄露给发送方。最基础的OT协议是2选1 OT。
基于OT的PSI协议需要使用的OT运行实例的数量与PSI双方输入的集合大小有关系,因此OT协议成为大集合PSI方案的主要瓶颈。OT扩展协议的出现[7],使得大集合PSI方案的落地成为现实。所谓OT扩展协议是指,OT协议在并行数量方面的扩展。具体来说,是用少量的OT协议实例来构造较为大数量的OT协议实例。文献[8][9][10]给出了OT扩展的相关理论结果与实现改进。
2013年,Dong等人在文献[11]中第一次将布隆过滤器引入到PSI中,并与OT扩展结合,使得PSI协议能处理的集合数量首次突破了亿级别。此后,对于布隆过滤器的改进也成为优化PSI协议的一个重要方向。通过改进布隆过滤器,Rindal和Rosulek给出了第一个恶意模型下的PSI协议[12],这一方案也在200 s时间内完成了两方百万数据量的安全求交。
2016年,在文献[13]中,Kolesnikov等人使用OT扩展来实现不经意伪随机函数(Oblivious Pseudorandom Functions,OPRF)[14],并且将此概念运用到PSI中,这也成为后续基于不经意传输的PSI 协议的主要方向。基于轻量级的OPRF(OPRF底层需要OT扩展来实现)以及基础的布隆过滤器,给出了较为优化的结果。
以上所有PSI协议的实现几乎都是在两个参与方的场景。对于多个参与方的场景,文献[15]中Kolesnikov等人引入了不经意的可编程伪随机函数的概念(Programmable Oblivious Pseudorandom Functions,OPPRF),并且基于插值多项式、布隆过滤器等技术实现OPPRF。OPPRF要求只对发送者编程进去的集合元素,接收者才可以进行不经意地函数取值,未编程进去的元素,接收者返回随机值。各个参与方之间顺次循环扮演发送方和接收方角色,最终完成交集的结果。
1.4 基于可信执行环境的隐私集合求交技术
PSI近两年新提出的一个技术路线是基于可信执行环境。2019年,百度发布了基于可信执行环境MesaTEE的PSI技术方案[16]。在该方案中,PSI以Intel SGX为信任根的基础进行搭建,Intel SGX提供了根植于CPU的硬件可信和高强度隔离运行环境,PSI的参与方通过远程认证来验证PSI执行环境的可信状态。PSI在集中式的TEE环境中解密后再执行计算,具有显著性能优势和容易支持多方PSI。
1.5 隐私集合交集基数计算技术
与PSI问题关联性较强并且解决方案类似的另一个问题是隐私集合交集基数(Private Set Intersection Cardinality,PSI-CA)问题,即直接求多方输入集合的交集的大小(而非先求出交集,再计数),并且不会泄露各方集合元素的信息。该问题由Agrawal等人于2003年提出[17],并且给出了基于判定性Diffie-Hellman假设的构造。运用文献[3]中使用的不经意多项式取值,Hohenberger和Weis构造了一个高效的PSI-CA方案。同样是使用不经意多项式取值的方法,Kissner与Song[5]以及Camenisch和Zaverucha[18]也分别给出了PSI-CA方案。Debnath和Dutta也在PSI-CA的构造方面给出了一系列的成果[19-21],并给出安全证明。以上方案都是基于两方的PSI-CA协议构造,并且具有线性级别的复杂度。对于多方的PSI-CA(简称MPSI-CA),Debnath等人基于DDH假设构造的门限同态加密,并且结合布隆过滤器,给出了MPSI-CA的构造[22]。
2 隐私集合求交技术在金融领域的应用
隐私集合求交技术在保护参与方的数据隐私性的前提下完成数据集的交集计算,通常在计算结束,参与方的其中一方或多方只能得到多方数据集的正确交集,而不会得到交集以外其他参与方的任何信息。在实际应用中,尤其是在金融场景,具有很强的应用价值,能够在保护集合隐私不泄露、保持数据控制权的基础上,实现参与方数据之间的匹配,满足业务场景的多种需求。
2.1 隐私集合求交典型实现流程
图1为隐私集合求交的一个典型的实现流程。
本文刊于《信息通信技术与政策》2021年 第6期
主办:中国信息通信研究院
《信息通信技术与政策》是工业和信息化部主管、中国信息通信研究院主办的专业学术期刊。本刊定位于“信息通信技术前沿的风向标,信息社会政策探究的思想库”,聚焦信息通信领域技术趋势、公共政策、国家/产业/企业战略,发布前沿研究成果、焦点问题分析、热点政策解读等,推动5G、工业互联网、数字经济、人工智能、区块链、大数据、云计算等技术产业的创新与发展,引导国家技术战略选择与产业政策制定,搭建产、学、研、用的高端学术交流平台。
《信息通信技术与政策》官网开通啦!
为进一步提高期刊信息化建设水平,为广大学者提供更优质的服务,我刊于2020年11月18日起正式推出官方网站,现已进入网站试运行阶段。我们将以更专业的态度、更丰富的内容、更权威的报道,继续提供有前瞻性、指导性、实用性的优秀文稿,为建设网络强国和制造强国作出更大贡献!
推荐阅读
你“在看”我吗?

