大数跨境
0
0

隐私计算促进数据要素安全流通 | 数据基础设施关键构建技术第5期

隐私计算促进数据要素安全流通 | 数据基础设施关键构建技术第5期 CAICT数据基础设施
2024-12-05
1


随着数字经济的深入发展,数据作为新型生产要素,已成为推动实体经济和数字经济发展的关键。党的二十届三中全会明确提出,要建设和运营国家数据基础设施,促进数据共享,这为推进数据领域的改革发展、进一步释放数据要素价值指明了方向。建立数据可信流通体系,通过增强数据的可用、可信、可流通和可追溯性,能够充分激活数据要素潜能,赋能实体经济。
“CAICT数据基础设施”公众号特别推出“数据基础设施关键构建技术”专题,旨在深入探讨数据可信流通的核心技术及其应用场景。本期将重点介绍隐私计算技术,从业务、功能和技术视角阐述架构设计,深入解析可信计算、多方安全计算等核心技术及其特点,全面探讨这些技术在数据要素流通中的关键作用及其它示范应用领域。

背景介绍

2020年4月9日,中共中央、国务院印发《关于构建更加完善的要素市场化配置体制机制的意见》,首次将数据与土地、劳动力、资本、技术并列为五大要素。此后,又相继出台《中华人民共和国民法典》《中华人民共和国数据安全法(草案)》《中华人民共和国个人信息保护法》等法律法规,丰富了我国在个人信息和隐私保护领域的立法内容,初步构建了我国个人信息和隐私保护的法律监管框架。

这意味着,中国全社会正在加速进入数据要素流通新时代,社会各行各业数据的大规模流通交易、价值交换和可信共享将成为必要刚需,而隐私计算将会成为改变数据命运的“最优技术解”之一和“核心基础设施”。基于业务需求和技术现状考虑,需要围绕数据全生命周期治理策略,构建赋能业务的隐私计算基础设施。尤其是将隐私计算技术服务化,促进业务合法合规使用更多价值数据,在安全保护必要的场景中实现“数据可用不可见”。

技术介绍

1.基本概

隐私计算融合了数据跨源查询、机器学习、多方安全计算、可信硬件等技术,确保在不同信任域之间的数据流通过程符合安全隐私规范。提供联邦SQL和联盟学习两大功能,满足不同场景下的数据融合需求,确保原始数据“可用不可见”。

隐私计算服务一般有可信计算节点和安全聚合节点两个角色。用户可以通过可信计算节点配置数据源,执行作业,审批作业等操作。安全聚合节点提供任务调度和数据安全聚合能力。基于可信执行环境(TEE)、安全多方计算(MPC)、联邦学习、区块链等技术,实现数据在流通、计算过程中全链路的安全保护和审计回溯,推动跨机构数据的可信融合和协同,安全释放数据价值。保障在数据隐私保护下实现多方数据联合分析和联邦学习,打破跨机构的数据孤岛。

2.技术发展阶段

隐私计算技术可以追溯到1949 年由香农开启的现代密码学时代,之后其内涵、特征及代表技术不断演进,融合了密码学、人工智能、计算机科学以及安全硬件等众多领域技术。直到2001年,国外正式提出“隐私增强技术”(Privacy Enhancing Technologies,PETs)的概念。国内也于2016年的《隐私计算研究范畴及发展趋势》中正式提出“隐私计算”一词。根据隐私计算技术出现、发展、落地到广泛应用的不同特点,将隐私计算的发展历程划分为四个阶段。

萌芽期(1949年-1981年):需求出现,概念萌芽。起始于20世纪40年代,现代信息学之父克劳德·香农的一篇重要论文《保密系统的通信理论》,被认为是现代密码学时代的开端。

探索期(1982年-2016年):主流技术路线出现。随着多方安全计算、联邦学习、可信执行环境等隐私计算技术的出现和发展,隐私计算的技术栈日趋成熟。

增长期(2017年-2025年):多行业的需求方和厂商陆续加入,专利、论文、标准、政策、实施案例相继涌现。该时期各国政府逐渐加强对数据安全和个人隐私保护的重视,各项政策法规陆续制定,基于隐私计算技术的数据流通产品得到不断探索应用和落地实施。

稳定期(2025年~):未来,随着政策和法律的清晰明确,技术进一步成熟,隐私计算作为“数据流通基础设施”将被大众广泛接受,行业应用稳步推进,更多大型企业开始全面使用隐私计算技术,应用规模稳定增长。

当前,隐私计算仍处于产业快速增长期,即将迈入前景广阔的稳定期。随着国家数据要素市场的加速建设,隐私计算技术将在更多场景得到广泛应用,“原始数据不出域,数据可用不可见”将成为多数行业数据流通的交易范式。除了实现“数据可用不可见”外,未来还需要进一步对数据的用途和用量进行控制和审计,真正实现数据使用的“可控可计量”,最大限度地保障数据要素流动过程中数据提供方的合法权益。根据《Gartner 2022隐私技术成熟度曲线》研究报告表明:预计在未来5~10年内,隐私计算技术会被大规模商业化应用。

3.核心技术

● 可信计算

可信计算负责对成员本地计算任务的执行,以及对计算结果隐私保护后发送给安全中心节点模块,完成联邦分析和联邦建模计算任务。成员使用可信计算节点模块实现自主可控的数据源注册、隐私策略的设定、元数据的发布等,为可信计算节点提供全生命周期的可靠性监控、运维管理。

TEE(Trusted Execution Environment)又称“可信执行环境”,是一种安全计算技术,可保证在这种安全区域内部加载的代码和数据在机密性和完整性方面得到保护。可信执行环境技术是CPU内的一个安全区域。它运行在一个独立的环境中且与操作系统并行运行。CPU确保TEE 中代码和数据的机密性和完整性都得到保护。通过同时使用硬件和软件来保护数据和代码,TEE比操作系统更加安全。

● 多方安全计算

多方安全计算是指在保障敏感数据不泄露的前提下,实现不同成员之间数据的联合SQL分析。支持对接多个数据参与方的主流数据存储系统,为数据分析任务发起方实现多方数据的SQL Join等融合分析, 各方的敏感数据在具有密码学沙箱或可信执行环境等安全支撑的安全中心节点中实现安全统计。支持根据预先设置的运算逻辑,对密文进行计算,得出计算结果, 将结果发送给数据解密系统,支持高性能计算,多密码协议等。

● 横向联邦学习

联合多方的具有相同特征的多行样本进行联邦学习或深度学习,横向联邦学习任务调度是面向分布式横向联邦学习场景,针对联邦学习任务的调度与管理。适用于作业各方的数据特征重叠较多,而样本ID重叠较少的情况。

● 纵向联邦学习

纵向联邦学习作业目前支持XGBoost算法和逻辑回归LR算法。纵向联邦学习分为五个步骤:数据选择、样本对齐、特征选择、模型训练、模型评估。适用于作业各方训练样本ID重叠较多,而数据特征重叠较少的情况,联合多方的共同样本的不同数据特征进行联邦学习。

● 隐私求交

支持隐私求交的任务创建和结果查询。不泄漏参与方各自输入信息的前提下协同计算并输出集合的交集, 一方或两方能够得到交集结果,但是双方都无法获知交集以外的对方集合数据的任何信息。

● 隐匿查询

支持隐匿查询的任务创建和结果查询。查询方隐藏被查询对象关键词或客户 ID信息,数据提供方匹配查询结果却无法获知具体对应哪个查询对象,同时保护查询方的查询意图和数据提供方的数据。

● 联合统计

支持多个参与方联合基础运算和统计运算,支持数据结果查询。各参与方数据对其他方,数据使用方通过多方计算平台对各个参与方的数据进行统计计算,只得到统计结果,无其他信息。

4.参考业务架构

隐私计算平台参考业务架构如下:

图1 隐私计算平台参考业务架构

隐私计算平台安全中心节点,提供流通管控、协作调度能力。边缘侧可信计算节点,作为多方协作计算工具,提供数据接入、作业开发、任务计算等功能。数据流通管理控制台,负责资源管理、监督审计、运维管理,合规管控。

隐私计算平台中心侧作为隐私计算服务提供方和一部分授权数据的提供方,建立隐私计算平台和中心节点,负责场景审核、服务发放、本地数据导入、中间模型训练、计算结果处理和计算任务监控等。

数据提供方,在本地部署隐私计算代理节点,按照需求方的场景需求和数据需求申请,在本地计算节点中导入所需原始数据,经过本地计算后对外以密文形态导出需求方所需的特征数据或指标结果。

数据需求方,在本地部署隐私计算代理节点,在本地节点中装载算法模型并灌注自身拥有的原始数据、样本数据,接收数据供给侧发送的特征数据或指标结果后在本地节点进行模型训练,获取最终计算结果。

5.参考功能架构

隐私计算平台参考功能架构如下:

图2 隐私计算平台参考功能架构

数据源:联邦学习系统支持传统数据库、大数据平台、AI平台等数据接入。数据源通过数据连接器接入可信计算引擎。

多元安全计算:负责对多方安全计算和联邦学习任务进行分解、调度,基于可信计算节点对数据源数据进行数据保护,然后在安全聚合节点中完成可信的多方联邦计算。

公共安全协议:对接主流深度学习框架实现横向和纵向联邦建模,支持基于同态加密、秘密分享、不经意传输、差分隐私、属性加密等技术下的样本对齐、特征选择和训练模型保护。

协作计算引擎:提供安全求交、联邦学习、隐匿查询、多方计算、可信交换计算引擎,满足不同场景下的数据协同计算需求。

联盟管理:负责对用户提供操作界面,完成联盟管理、联盟成员管理、联盟数据集管理、隐私策略管理等管理操作,接收用户下发的分析请求,并提供联盟数据的历史使用报告。

服务管理:服务管理是对分布式内核建模系统的整体运维管理,包括部署、配置、监控、日志等运维操作支撑。

数据保护:数据保护为分布式联邦学习系统提供一系列的安全服务,例如加解密、数字签名等,供可信计算引擎在运行过程中进行调用。

6.参考技术架构

隐私计算平台参考技术架构如下:

图3 隐私计算平台参考技术架构示意图

隐私计算融合大数据跨源查询、机器学习、多方安全计算、可信硬件等技术,可确保在不同信任域之间的数据流通过程符合安全隐私规范。通过联邦SQL、联盟学习等功能,满足不同场景下的数据融合需求,确保原始数据“可用不可见”。

隐私计算中一般有可信计算节点(计算节点)和安全聚合节点(调度节点)两个角色。用户可以通过可信计算节点配置数据源,执行作业,审批作业等操作。安全聚合节点提供任务调度和数据安全聚合能力。

可信计算节点提供了可视化交互平台,用户可以通过该界面配置数据源、数据隐私规则、审批作业和执行作业等操作。同时,可信计算节点可集成多种安全算子,比如同态加密、秘密分析、不经意传输,隐私求交等密码学算法,根据不同的作业类型使用不同的隐私保护机制,确保数据经过加密后出域。

安全聚合节点提供了安全容器沙箱和可信硬件TEE两种能力。安全容器沙箱结合了多方安全计算的密码学方案,确保数据在密态情况下完成聚合操作,数据对第三方不可见。TEE硬件环境有更高的隔离性和更通用的计算环境。隐私计算结合区块链技术,各参与方本地计算任务信息上链,便于事后审计,防抵赖。

示范应用领域

1.数据要素流通

基于隐私计算构建数据要素流通平台,解决数据安全合规开放问题,以“数据可用不可见”为安全原则,做到数据可信流通。原始数据不出域,数据可用不可见。数据高效运营实现供需对接、业务审批工具化。数据权限控制、开发工具发放、数据产品使用自动化。数据全程合规,保障数据来源可确认、数据使用经授权、流通过程可追溯、安全风险可防范。

2.普惠金融

普惠金融是隐私计算在金融领域的一个重要应用场景。由于不同机构间数据分散、数据保护等原因,金融机构之间、金融机构与其他行业机构之间的数据融合壁垒较高,“数据孤岛”现象严重,提升了金融机构的风险识别难度,使得小微企业融资难、融资贵。

利用隐私计算技术,可以将各方数据可控地交由社会挖掘企业数据价值,更好地分析企业的综合情况,交叉验证交易真实性等业务背景,降低欺诈及合规风险,从而综合提升风控能力和优质企业识别能力。

3.医疗健康

基于隐私计算技术构建医疗数据可信流通平台,能够在保障患者隐私安全的前提下,通过差分隐私、同态加密、零知识证明、安全多方计算等技术保障用户隐私安全,将授权的健康数据在不同医疗机构间进行共享,提升医疗机构办事效率,丰富医疗研究样本,促进全民健康信息标准化体系建设。

4.企业风控与政策帮扶

利用隐私计算技术,可实现在数据隐私保护下企业数据安全统计分析和核查验证,从而进行跨部门、跨机构的精准画像、风险分析、实时预警、政策研究等应用。在风险防控中,通过隐私计算保障个人数据的安全性,穿透小微企业和企业主的数据图谱,对高危企业进行筛选分析,通过筛查模 型精准筛查高风险企业群,构建风险关系网结合企业信息,快速追溯问题企业源头。在政策分析中,要依赖大量隐私数据,可利用隐私计算技术在原始明文数据不出库的基础上,实现数据价值的安全共享,进行全行业的联合计算及关联分析等,在隐私保护的前提下挖掘多样的企业发展情况和需求,制定相应政策进行精准扶持,促进地区数字化转型。


专家介绍

孙长森


华为技术有限公司数据领域资深专家,从事政务大数据、数据要素、数据空间、人工智能、智慧城市等方面的顶层规划、解决方案设计等相关工作,参与多项国家标准、地方标准的编写,熟悉“华为数据之道“方法论,并在多个领域落地。



关于“中国信息通信研究院”



中国信息通信研究院是工业和信息化部直属科研事业单位,作为“国家高端专业智库 产业创新发展平台”,中国信通院的科研布局从信息通信业向赋能千行百业拓展,演进形成大通信、大数字化、大安全和新型工业化“三大一新”的研究体系,同步构建了产业全生命周期服务能力,在行业发展的重大战略、规划、政策、标准和检测认证等方面发挥了有力支撑作用。中国信通院是国内信息通信技术领域唯一打通战略与政策、新技术研究、标准研制、试验验证到产业推进的全链条创新平台。
中国信通院积极推动数据技术产业落地,围绕数据基础设施、数据流通关键技术、公共数据开发利用、企业数据可信流通等布局数据要素市场建设,支撑国家战略规划与政策编制,积极开展领域内专题研究,紧密围绕数据核心技术,构建标准化体系,联合产业各方成立行业组织,推动数据行业交流共享。



关于“CAICT数据基础设施”



CAICT数据基础设施以促进数据要素市场化配置为出发点,专注于数据基础设施的关键技术研究和数据智能服务网络建设,释放数据要素价值,推动数字经济与实体经济融合创新发展。


【声明】内容源于网络
0
0
CAICT数据基础设施
CAICT数据基础设施以促进数据要素市场化配置为出发点,专注于数据基础设施的关键技术研究和数据智能服务网络建设,释放数据要素价值,推动数字经济与实体经济融合创新发展。
内容 224
粉丝 0
CAICT数据基础设施 CAICT数据基础设施以促进数据要素市场化配置为出发点,专注于数据基础设施的关键技术研究和数据智能服务网络建设,释放数据要素价值,推动数字经济与实体经济融合创新发展。
总阅读27
粉丝0
内容224