7月28日,业内首份《可信隐私计算研究报告(2022)年》(以下简称报告)全文正式发布。报告由隐私计算联盟联合中国信通院云大所等多家成员单位共同完成,主要包括可信隐私计算的发展背景、框架、核心要素、实践路径及未来展望等内容。
以下为蚂蚁可信隐私计算结合技术研究经验及自身实践,对于《可信隐私计算研究报告(2022年)》部分关键信息的思考。
数据密态时代
可信隐私计算将成为支撑性技术
近年来,数据成为国家基础性战略资源。2020年4月,中共中央、国务院发布《关于构建更加完善的要素市场化配置体制机制的意见》,将数据作为与土地、劳动力、资本、技术并列的生产要素,要求“加快培育数据要素市场”。
报告提到,数据作为关键的生产要素之一,通过跨地域、跨行业、跨领域、跨机构的数据流通释放要素价值。但数据流通存在诸多阻碍,主要聚焦在:数据产权制度的建立、安全共享存在风险、监管要求待完善等。
今年6月召开的中央全面深化改革委员会第26次会议(以下简称深改委会议),审议通过了《关于构建数据基础制度更好发挥数据要素作用的意见》,对数据确权、流通、交易、安全等方面做出了部署。
此次深改委会议明确,要建立数据资源持有权、数据加工使用权、数据产品经营权等分置的产权运行机制,健全数据要素权益保护制度。
深改委会议明确将数据的持有权和使用权分离,对于数据要素市场化来说是个非常积极的消息。
与此同时,随着《网络安全法》、《个人信息保护法》、《密码法》、《数据安全法》以及《民法典》多部数据安全有关的法律法规实施,形成了较为完备的安全法律体系。
2022年,无论从法规政策要求还是技术成熟度上,整个数据流通领域将告别数据明文时代,即将开启“数据密态时代”的新征程。
数据密态是指数据以密态形式流通,保障其流转、计算、融合直到销毁的全链路安全可控。数据密态的重要价值是将数据要素的持有权、使用权、运营权分离,以支撑数据要素产业安全健康的发展。
蚂蚁集团副总裁兼首席技术安全官韦韬博士认为,迈向数据密态时代,全行业数据将主要以密态形式来流通,实现的前提是一定要有全新的技术支撑能力和相关技术基础设施。这样的技术基础设施在可靠性、性能、成本、适用性和安全性保证上都面临着前所未有的挑战,需要承载各行各业多种多样的数字化业务。可信隐私计算将成为上述问题的技术突破口。
可信隐私计算的引入与定义
但报告研究小组发现,在政策和市场的同时作用下,随着各界对隐私保护的需求越来越重视,需求方、供给方、监管方等多方积极参与,隐私计算技术、产业、应用迅速发展,隐私计算概念也有了新的概念外延。但是,在隐私技术应用过程中,仍然面临着安全性、合规性、可用性等多方面的挑战。比如现有的隐私计算安全性评估缺乏跨类别比较能力,隐私计算与隐私合规之间也缺乏明确支撑关系。这样发展下去,隐私计算技术如何才能“可信”已经不断引发业界人士的思考与讨论。
经过广泛调研征集和深入讨论,报告中首先在隐私计算快速发展、相关技术融合创新、隐私计算理论不断演进的形势下提出了广义隐私计算。然后,基于隐私计算应用过程中面临的挑战,回到“可信”理念的本源,梳理了技术可信应用的原则,首次提出并重点探讨了“可信隐私计算”的概念和五大核心要素。在此基础上,分析了企业、行业的可信实践路径,并提出了未来发展的相关建议。
可信隐私计算的定义为“可信隐私计算在应用过程中,其安全性、可用性和隐私保护能力等应符合设计声明预期,以满足数据需求方、数据提供方和监管方等各方的需求”。
《可信隐私计算研究报告(2022年)》,致力于在隐私计算技术原理和应用实践之间搭建起连接的桥梁,为供给侧的企业产品研发和技术应用提供指导。
安全可证是可信隐私计算的第一要素
可信隐私计算研究的焦点主要围绕隐私计算系统的安全性、隐私保护能力、效率、稳定性、适用性、扩展兼容、场景易用等方面的特性展开,这些特性也构成了可信隐私计算的核心要素,即:安全可证、隐私保护、流程可控、高效稳定、开放普适。而安全可证是可信隐私计算的第一要素。
蚂蚁可信隐私计算关于安全性验证的成功经验与行业形成了共识。目前比较常见的验证形式有三种:第三方机构验证、授权用户验证和完全开放(开源)接受公众验证。特别的,完全开放(开源),通过公开代码使得外界能够完全了解技术原理和实现,可以接受行业专家的攻击验证。一般具有一定活跃度的开源项目的安全性更透明、安全风险更明确,安全性更容易得到保障。
蚂蚁可信隐私计算开源框架“隐语”也在积极践行这样的高强度的开源安全验证理念。“隐语”正式版本发布之前需要经历三个阶段的安全验证流程:一阶段由内部三支安全团队做了独立验证;进入公测时进到了第二阶段,通过SRC对开源代码做漏洞悬赏,鼓励全社会来寻找开源问题,同时做了定向邀请来实现第三阶段要求的背靠背专业安全团队测评。以上三个阶段完全通过测评以后才进入正式版本发布。这样严格的安全验证流程尽最大努力确保正式版本的安全可证。
报告还指出,隐私计算的安全性自证是技术应用过程中面临的难题,隐私计算产品安全边界的界定需要考虑不同行业、不同场景和不同技术的差别,也需要平衡计算准确性和计算效率的要求。因此,如何评价和验证系统的安全性亟需明确。
关于隐私计算实现的安全性评价体系,蚂蚁可信隐私计算在6月28日“2022大数据产业峰会”上,阐述了隐私计算产品安全的本质,并根据多年隐私计算研究和实践经验,对隐私计算实现的安全性进行了通用的五类安全分级。
蚂蚁可信隐私计算认为,产品不存在绝对的安全,大部分商业应用场景中,绝对安全的代价之高是难以承受的;另一方面,隐私计算的安全性需要结合性能、成本等因素综合考虑以满足不同场景的需求,根据实际应用场景选择适合的安全等级。隐私计算系统的通用安全验证分级如下:
高效稳定与开放普适
报告提到,可信隐私计算的核心要素还包括高效稳定与开放普适。特别的,作为数据密态时代的基础设施,可信隐私计算技术一定需要支撑各种各样的应用和需求,可能有任意多的参与方,任意形式的数据归属划分形式。
为实现可信隐私计算隐私保护的核心目标,蚂蚁可信隐私计算在国际上首创提出了新型隐私计算技术----可信密态计算(TECC),将可信计算技术与密码学深入融合,形成基于全栈可信与密态分片的全密文高速计算能力,在性能、可靠性、适用性等方面比传统跨网隐私计算有显著提升,突破了当前单一隐私计算技术的局限,形成了更高的综合能力。

TECC在可以远程验证的全栈可信TPM/TEE环境中使用高速全密文计算,能够有效抵抗困扰TPM/TEE的供应链攻击、侧信道攻击、明文数据泄露风险,同时有效抵抗困扰多方安全计算和联邦学习的合谋攻击、恶意敌手攻击与信息熵泄露风险。
同时TECC也达到了高效稳定的要求。TECC能在1小时内完成亿级样本XGB建模,适用于任意多方参与,任意数据划分,支持99.99%~99.999%基础设施级可靠性要求,比明文分布式计算增加不超过一个数量级的实用成本,达到了作为数据密态时代基础设施级的多维度技术要求。
隐私保护与流程可控
隐私保护在各国法规的要求不尽相同,但在核心技术要求上有两个:“专数专用”与“可算不可识”。
“专数专用”其实和流程可控密切相关。比如,TECC对于密码学技术和可信技术(TPM/TEE)技术的融合,满足了可信隐私计算的信任基础:流程可控,包括事前明确授权、事中过程可监控、事后可验证可审计,能够确保个人授权的数据仅用于授权场景。
在缺乏用户授权的场景,各国隐私保护法规的核心技术要求其实可以归纳为“可算不可识”,即在数据计算使用过程中不能识别出数据背后的个人主体。
传统隐私保护技术在实践中可以通过区间化、泛化/有效位截断、k-匿名、l-多样性、t-接近、差分隐私等方法对个人身份标识信息、属性行为数据等进行去标识脱敏处理。可信隐私计算系统在此基础之上,可以进一步结合密码学技术、可信硬件等可信受控环境将数据转化为密态数据,从而实现受控环境下的相对匿名化。以确保数据使用可控,防止个人信息的重新识别,确保匿名化,确保个保法规定下的个人信息权益不受侵犯。
结语
隐私计算技术的发展,是伴随着法律法规的完善、技术研发水平的提升、实际应用的需求而变动的。当前行业达成的共识是,可信隐私计算在性能、安全性、稳定性、适用性、可靠性上能够满足数据密态时代要求的技术,已经成为各界关注的焦点和努力的方向。
蚂蚁集团对隐私计算的探索始于2016年,涉及了多方面的技术。经过6年多深耕已经形成了完整的可信隐私计算技术栈。蚂蚁可信隐私计算将继续加强技术创新,与业界同行们共同推动新兴可信隐私计算的规模化落地,持续参与可信隐私计算产业生态的构建,为推动数据要素产业安全健康发展继续努力。

