行业研究-隐私计算- 大数跨境

首页

行业研究-隐私计算

华扬资本

2023-11-11

导读：行业研究

01 隐私计算的背景

这个时代无疑是伟大的，笔者曾经看过一本书叫《伟大的博弈》里面详细介绍了金融帝国华尔街的前世今生，直到看完这本书之前，我都不敢想象，华尔街曾经用挥舞旗帜的办法来传递股票的涨跌，这在现在的我们看来，多么的原始落后。

这种数据信息的传递速度太慢了，以我们现在的视角来看，可能等到买家了解到股价后，也许它已经“涨停了”或者“跌停了”。股票交易发展到今天，我们通过计算机已经实现了量化交易，我们甚至可以通过量化系统可以提前捕捉到买单，并在其千分之一秒前下单。

计算机的信息高速公路可没有限速，相比起原始时代，我们打开的是一个潘多拉魔盒，毕竟数据信息时代，除了生活中提供给我们的方便、快捷、精准服务以外，隐私窃取也是一个非常普遍的行为。

那么我们的隐私如何保障呢？在大数据时代的今天，我们的数据通常情况下会被备份到云端或者自己所用的硬件里面，我们为了防止别人偷窥、盗窃，通常情况下我们会设置密码加密，甚至设置一些“隐私”问题来防止别人盗取。

但是在现在的技术条件下，我不认为这是一个明确的选择，因为以上行为除了能防止我们的硬件被窃取后的数据丢失问题，其实起不了太大的作用，对于黑客或者其他别有用心者，有太多的节点可以被攻击从而窃取你的数据或者以一种“合法”的方式来窃取，其实质上对于我们的日常隐私保护起不到任何作用。当你设置密码的那一刻，实际上你已经把你的隐私合法的出卖给了各种软件APP，所以说大数据时代，任何都是没有任何隐私的。

除了个人用户以外，企业乃至政府，也无时无刻不被“隐私盗取”的问题所困扰。一家大型企业，例如，银行、保险，他们的数据非常值钱，主要体现在隔夜拆借信息、高净值客户信息、现金运输等等。数据的丢失和窃取往往意味着数千万乃至数亿的损失。

在国家层面，面对国防安全、地理数据等敏感信息，我们每天都会受到来自网络的攻击，被窃取的数据，往往被收集、分析，继而找出我们的弱点和软肋，一旦有个风吹草动，损失可就太大了。

目前来看，技术手段是可以很大程度上解决以上问题的，但这并不意味着我们可以高枕无忧，这类似于一个“长矛”与“厚盾”的长期博弈。

02 什么是隐私计算

数据时代的隐私保护手段是多样的，今天我们提到的隐私计算就是主要手段之一。

简单来说，隐私计算(Privacycompute或Privacycomputing)是指在保护数据本身不对外泄露的前提下实现数据分析计算的技术集合，达到对数据“可用、不可见”的目的；在充分保护数据和隐私安全的前提下，实现数据价值的转化和释放。

隐私计算（Privacycompute）是面向隐私信息全生命周期保护的计算理论和方法，是隐私信息的所有权、管理权和使用权分离时隐私度量、隐私泄漏代价、隐私保护与隐私分析复杂性的可计算模型与公理化系统。

通常情况下，隐私计算可以通过多种办法获得。

1
多方安全计算

多方安全计算(SecureMulti-partyComputation,MPC)由图灵奖获得者姚期智院士于1982年通过提出和解答百万富翁问题而创立，是指在无可信第三方的情况下，多个参与方共同计算一个目标函数,并且保证每一方仅获取自己的计算结果，无法通过计算过程中的交互数据推测出其他任意一方的输入数据(除非函数本身可以由自己的输入和获得的输出推测出其他参与方的输入)。

MPC基于密码学安全，其安全性有严格密码理论证明，不以信任任何参与方、操作人员、系统、硬件或软件为基础，各个参与方对其拥有的数据拥有绝对的控制权，保障基本数据和信息不会泄露，同时计算准确度高，并支持可编程通用计算。

但由于多方安全计算包含复杂的密码学操作，计算性能问题是应用的一大障碍。随着应用规模扩大，采用合适的计算方案保证运算时延与参与方数量呈现线性变化是目前各技术厂商面临的一大挑战。从安全性上看，多方安全计算的目标是保证多方数据融合计算时的隐私安全，但一些传统安全问题，如访问控制、传输安全等，仍然需要其他相应的技术手段。

2
联邦学习

联邦学习(FederatedLearning,FL),又名联邦机器学习、联合学习、联盟学习等。联邦学习是实现在本地原始数据不出库的情况下，通过对中间加密数据的流通与处理来完成多方联合的机器学习训练。

联邦学习参与方一般包括数据方、算法方、协调方、计算方、结果方、任务发起方等角色，根据参与计算的数据在数据方之间分布的情况不同，可以分为横向联邦学习、纵向联邦学习和联邦迁移学习。

联邦学习的优点是明显的，由于其具有分布式训练和联合训练的特点。一方面能够解决训练阶段数据特征单一的问题，从而获得一个性能更好的、优于利用自己本身数据集所训练出的模型。

另一方面，各参与方只需在本地利用各自数据集进行训练，数据体量未增加，算力成本压力小。因为整个训练过程中各参与方的数据都不会离开本地，只将模型的梯度及权重等信息上传至中心服务器进行聚合分割，对于各参与方来说这样既不会直接泄露隐私数据，也不会额外增加参训数据量，从而完成训练任务。

但联邦学习也有缺点，目前业内应用较大的神经网络模型来看，因为从底层编码开始构建一个基础的神经网络模型通常耗时耗力，多数企业从开源平台获取或第三方平台上购买基础模型，这样的基础模型本身就有植入病毒的可能。

学术界对于联邦学习的安全保障效果尚无严格定义，利用中心服务器收集的梯度及权重信息还是有可能反推出每个参与方的数据信息。联邦学习的机制默认所有参与方都是可信方，无法规避某个参与方恶意提供虚假数据甚至病害数据，从而对最终的训练模型造成不可逆转的危害。且由于分布式参与节点计算能力不一致、网络连接状态不稳定、数据通信非独立分布等现实因素，联邦学习的通信效率极易成为联邦学习应用的瓶颈之一。

3
可信执行环境

可信执行环境(TrustedExecutionEnvironment,TEE)通过软硬件方法在中央处理器中构建一个安全的区域，保证其内部加载的程序和数据在机密性和完整性上得到保护。

TEE是一个隔离的执行环境，为在设备上运行的受信任应用程序提供了比普通操作系统(RichOperatingSystem,RichOS)更高级别的安全性以及比安全元件(SecureElement,SE)更多的功能。可信计算，已经上升到单独的硬件环节了。

相对于其他隐私计算技术，机密计算具有通用和高效的优势，不仅可以无缝支持通用计算框架和应用，而且计算性能基本可匹敌明文计算。它可以单独用于隐私计算，也可以与其他技术结合在一起来保护隐私，尤其对于安全可信云计算、大规模数据保密协作、隐私保护的深度学习等涉及大数据、高性能、通用隐私计算的场景，是重要的技术手段。

可信计算的缺点在于TEE信任链跟CPU厂商绑定，目前硬件技术被掌握在英特尔、高通、ARM等少数外国核心供应商中，因此国内应用不多。且可信计算只是单独在CPU上面画了一块扇区而已，对于芯片本身来说，没有全部参与到隐私计算的过程中去。

4
区块链技术

区块链技术，最新的技术莫过于区块链技术，本质上讲就是一个又一个区块组成的链条。每一个区块中保存了一定的信息，它们按照各自产生的时间顺序连接成链条。这个链条被保存在所有的服务器中，只要整个系统中有一台服务器可以工作，整条区块链就是安全的。

这些服务器在区块链系统中被称为节点，它们为整个区块链系统提供存储空间和算力支持。如果要修改区块链中的信息，必须征得半数以上节点的同意并修改所有节点中的信息，而这些节点通常掌握在不同的主体手中，因此篡改区块链中的信息是一件极其困难的事。相比于传统的网络，区块链具有两大核心特点：一是数据难以篡改、二是去中心化。基于这两个特点，区块链所记录的信息更加真实可靠，可以帮助解决人们互不信任的问题。

5
差分隐私

差分隐私（DifferentialPrivacy，DP）是密码学中的一种手段，旨在提供一种当从统计数据库查询时，最大化数据查询的准确性，同时最大限度减少识别其记录的机会。

差分隐私基于严格的数学理论，通过在计算结果中添加噪声的方法，保证供给者无法根据输出差异推测个体的敏感信息，从而在不损害个人隐私的前提下，实现数据资源的最大化利用。差分隐私技术也对隐私保护进行了严格的定义并提供了量化评估的方法，对隐私保护水平进行了严谨的证明。

差分隐私通过添加噪声实现隐私保护，这一行为可能对模型的数据可用性及准确率造成影响。过大的噪声会导致数据统计时的可用性和准确度严重受损，因此差分隐私在人脸识别、金融风险剂量等领域无法实现大规模商用。现阶段，差分隐私技术发展的重点为降低噪音对准确率的影响。

本地差分隐私：传统的差分隐私将原始数据集中到一个数据中心，然后在数据中心中对数据施加差分隐私算法，进而对外发布，这种方式也被称为中心化差分隐私（CentralizedDifferentialPrivacy，CDP）。但中心化差分隐私需要可信的第三方数据收集者，即保证所收集的数据不会被窃取和泄露。但在实际应用中可信的第三方数据收集者很难被找到。为此，本地差分隐私方案（LocalizedDifferentialPrivacy，LDP）被提出。本地差分隐私在基于不可信第三方的前提下，其将数据隐私化的工作转移到每个用户，用户自己来处理和保护个人数据，极大地降低了隐私泄露的可能性。本地差分隐私已被Google、苹果、微软等互联网巨头广泛应用。但相较于传统中心化差分隐私方案，本地查分隐私方案对数据添加的噪声更大，因此在面向数据统计时数据的可用性更低。

6
同态加密

同态加密（HomomorphicEncryption，HE）系统是一种加密形式，它允许人们对密文进行特定形式的代数运算得到仍然是加密的结果，将其解密所得到的结果与对明文进行同样的运算结果一样。

换言之，这项技术令人们可以在加密的资料中进行诸如检索、比较等操作，得出正确的结果，而在整个处理过程中无需对资料进行解密。现阶段同态加密的发展瓶颈在于算法对算力的需求高，且同态加密效率低，因此同态加密暂时不能用于大规模业务。

同态加密系统可用于上述隐私计算方法当中，其本质是一种算法。例如在区块链当中，因为区块链应用的基本逻辑是将需要存证的信息上链，并通过众多区块链节点的验证和存储，确保上链数据的有效性和不可篡改性。例如，在比特币中，用户将转账信息进行广播，区块链节点在进行验证后将其打包上链，保证交易的合法性；在以太坊中，需要依赖区块链节点对智能合约的正确执行，以实现链上信息的统一性和正确性。但是，无论是公有链还是联盟链，直接基于明文信息进行区块链发布通常会在泄露一定的敏感数据。

基于同态加密的区块链应用理论模型如下图所示。为了保护链上信息的隐私性，同时又能实现区块链节点对相关信息的可计算性，可对数据进行同态加密，并将计算过程转化为同态运算过程，节点即可在无需获知明文数据的情况下实现密文计算。

例如，区块链底层应用平台特别是公有链平台大多基于交易模型，可考虑采用加法同态加密进行支持隐私保护的交易金额计算等操作。

下面就给大家介绍一下，同态加密技术。

部分同态加密：现阶段同态加密的实现多通过非对称加密算法，即所有知道公钥的参与方都可以加密、执行密文计算，但只有私钥所有者可以解密。同态加密体系可系统性分为部分同态、近似同态、有限级数全同态与完全同态四类。其中部分同态、近似同态与有限级数全同态均可被划分为部分同态加密方案。

部分同态加密（SomewhatHomomorphicEncryption，SHE）只能支持有限的密文计算深度，例如Paillier支持密文间的加法运算但不支持密文间的乘法运算，BGN支持密文间无限次加法运算与一次乘法运算。由于部分同态加密的局限性，一般不会被用于独立建设一个隐私计算方案，而部分同态加密多用于联邦学习方案中的安全增强。

全同态加密（FullyHomomorphicEncryption，FHE）系统没有任何计算方法的限制，用户可以在没有密钥的情况下，把密文任意的组合起来，形成新的密文，并且新的密文可以在任意计算复杂度的情况下被还原成原文。支持近似小数计算的CKKS方案相助提升了全同态加密的计算性能，但全同态加密的计算的算力要求仍极高，现阶段尚未大规模商用。

同态加密与差分隐私在隐私计算应用中的落地进程较缓慢。同态加密对于算力资源的需求极高，现阶段常规GPU芯片无法满足同态加密所需求的算力，而同态加密的技术演进将不断提升算力需求。因此同态加密的商用可能需要底层根据同态加密算法设计ASIC等专用芯片。另一个方面，差分隐私的精准程度不高，长期而言在隐私计算中的独立应用前景较窄，但可成为辅助数据安全与数据加密的增强应用。

03 如何解决信息孤岛问题？

隐私计算，从被发明的那一刻起，除了解决信息安全问题以外，同样也可以解决数据孤岛的问题。

企业发展到一定阶段，出现多个事业部，每个事业部都有各自数据，事业部之间的数据往往都各自存储，各自定义。每个事业部的数据就像一个个孤岛一样无法(或者极其困难)和企业内部的其他数据进行连接互动。”我们把这样的情况称为数据孤岛。

专业人士把数据孤岛分为物理性和逻辑性两种。物理性的数据孤岛指的是，数据在不同部门相互独立存储，独立维护，彼此间相互孤立，形成了物理上的孤岛。逻辑性的数据孤岛指的是，不同部门站在自己的角度对数据进行理解和定义，使得一些相同的数据被赋予了不同的含义，无形中加大了跨部门数据合作的沟通成本。

在解决数据安全的基础上，数据孤岛问题，也可由隐私计算来解决，就好比我们已经解决了“衣不蔽体”的问题后，我们需要在保护好自己的“隐私”情况下出门与人社交一样。

现阶段MPC、TEE、联邦学习三足鼎立。隐私计算有许多底层技术可供选择，而隐私计算的实现可能需要多种技术融合应用，才能解决数据孤岛的问题。现阶段MPC、TEE与联邦学习三种技术商用化进程领先，短期内这一技术趋势会被延续。长期来看，MPC、联邦学习需要隐私计算供应商长期积累有效数据并迭代、优化算法，而TEE需要在此基础上对于底层芯片做出优化设计。

综合而言，TEE对于供应商的软硬件全栈能力要求极高，现阶段中国厂商仅互联网头部厂商可以实现。出于成本考虑，MPC与联邦学习的应用占比或将增加。

04 同态加密的展望

为什么我要把同态加密放在最后再来说一下呢？作为一种几十年前就已经提出的算法，半同态加密已经实现了商业化，全同态加密仍然在路上。

一个明文状态下只有30.5kb的应用，在密文的情况下要膨胀到1.33个Gb，大概膨胀了5.2万倍，计算的时间由0.1秒左右提升到了390秒，膨胀了2000多倍，甚至有些应用还会膨胀上亿倍，而这是由同态加密算法本身的算法决定的。

由于数据的膨胀，计算时间就会大幅地增长，迫切需要一些新的信息基础设施来加速同态加密算法的执行，减少它的执行时间，使得它能够脱离商用，离真正保护数据的安全能够更进一步。

巨大的计算开销阻碍了它的实际应用，如何保证在密文计算结果正确的前提下提高计算性能和能效，是当前业界比较公认的难题。现在国内是以FPGA，也就是可编程逻辑器件作为平台来验证这个芯片的性能，在基本的算子在性能方面要超过CPU上千倍，国外还没有进行流片，他们在往ASIC方面去设计，还没有真正进行流片，只是停留在芯片的仿制验证阶段，和他们这些设计相比，我们的波塞冬的性能和它们的性能基本持平，甚至更优。

但是要注意的是我们使用可编程逻辑器件来得到的这些性能，而它们是在仿真平台上。如果我们要进行流片，真正做成芯片，我们的性能肯定是比他们要高很多的。

05 结语

在数据时代，所有的信息都可以被数据化，我们能以很低的成本获取网络上任何数据化的信息，隐私安全一直是人们所重视的，隐私计算势在必行！伴随未来我们突破隐私计算的技术难点，隐私计算的市场将会非常庞大。

End