4.1总体设计
以“数据流通利用全流程可信可控”为目标,建设安全可控、互操作性强的可信数据空间数据流通利用基础设施,技术体系主要包括可信连接器和可信数据空间服务平台。可信连接器是连接数据流通主体与可信数据服务平台的软硬件结合的终端设备,数据供需方均可通过可信连接器接入可信数据空间,完成数据流转、加工和利用;可信数据空间服务平台提供空间管理、数据管理、使用控制、存证溯源等能力,为接入的可信连接器提供关键能力支撑。
图2可信数据空间总体设计
通过建设可信数据空间,使得数据安全接入、跨域可控、流通可信,具备数据可信管控、资源交互、价值共创三大核心能力,为数据加工、数据共享、数据授权运营等数据应用场景提供高效、安全流通支撑。
4.2技术体系设计
4.2.1可信连接器
数据服务层为数据互联互通提供基础能力,设置数据接入、数据传输、数据存储、数据加工区。
数据接入区通过统一的数据接入标准、严格的身份认证机制和精细的资源控制手段,将数据源安全可靠地接入可信数据空间。
数据传输区通过虚拟专网和加密传输,保障数据在可信数据空间内安全地传输和访问,确保数据传输过程的机密性;
数据存储区提供密态的存储环境,对外共享的高敏感数据会在可信数据连接器内加密存储;
数据加工区通过可信执行环境、数据沙箱、访问控制技术为数据加工利用提供安全的环境,同时提供隐私计算技术,为数据提供丰富的加工处理能力。
可信管控层为接入可信数据空间的各主体、数据资源、产品服务等,提供使用控制和存证溯源能力。
使用控制能力主要通过环境隔离、访问控制和数据使用控制策略为数据的安全性、合规性和高效流通提供支持。首先基于可信执行环境、数据沙箱提供安全的隔离环境,确保不同数据加工环境、数据应用之间的环境隔离;其次对接入的数据资源、数据产品、数据服务等,进行接入核验审查,并通过分权管控精确控制数据的访问权限,防止未经授权的操作,确保数据使用符合相关规定;再次基于预定义的数据使用控制策略,保障数据使用方按照数据提供方设定的策略使用数据,数据仅可被授权用户,按照约定的用途和用法进行使用,如对数据类型、使用对象、次数、时间、地理位置、是否转发、销毁等维度进行管控。
存证溯源能力通过对关键数据和数据开发利用过程进行存证和审计保障了数据流通过程的透明和可追溯,数据在“可溯可审计”的保障下安全合规的流通利用,避免数据的违规滥用,保障了各方权益。
在建设可信数据空间的同时,安全保障体系需要同步规划、同步建设、同步运营。可信连接器内置了多层次、多维度的主动免疫安全防护能力,以此来保障数据的接入、传输、加工利用和交付,确保贯穿数据流通利用全流程各环节安全。
可信连接器的安全保障体系从“可信硬件芯片”到“机密软件系统”逐步构建,首先基于可信根形成融合远程证明、可信启动、动态度量的可信启动链,确保启动过程不被劫持、
不被篡改;在可信启动时,可信执行环境对操作系统的内核和关键进程进行“动态度量”监测,可向远程服务中心发送“运行环境安全证明”,确保软件系统未被篡改,同时,软件系统和数据都有落盘加密保护,即使人员接触物理设备,也无法获取其中的数据和文件。系统内部融合了多维度的安全能力,包括“主机安全”、“入侵检测”和“安全审计”等;针对数据外发的需求,提供数据脱敏、水印和API安全,以此确保数据“采、存、管、用”的全流程安全合规。
4.2.2可信数据服务平台
可信数据服务平台设计了数据资源交互层和信任管控层。数据资源交互层为数据存储、加工和利用提供安全环境,确保数据的隐私保护、完整性和安全性。资源交互层可以与可信连接器进行数据资源交互和数据互操作。信任管控层提供整个可信数据空间的空间管理、使用控制和存证溯源能力。
图4可信数据空间服务平台设计
(1)资源交互层提供四个核心能力,分别为:租户隔离、密态存储、数据沙箱和机密计算。
租户管理
租户隔离采用多层次的身份认证、资源隔离和配额管理策略,以确保不同租户的数据和计算任务在共享的基础设施上实现严格隔离。身份认证通过多因素认证、硬件安全模块以及远程证明技术,确保只有受信任的用户和设备可以访问机密计算环境。资源隔离依托可信执行环境和虚拟化技术,确保不同租户的计算任务运行在独立的安全空间内,防止潜在的侧信道攻击。同时,为了优化资源使用和保障公平性,系统提供基于计算资源消耗、存储占用和任务执行时长的计费与配额管理机制,防止资源滥用并提高集群整体效率。
图5可信数据空间服务平台租户隔离设计
密态存储
实现数据的安全存储与访问,确保平台管理员和设备管理员无法窥探或篡改设备上的存储数据。密态存储主要包括虚拟机加密和落盘数据加密两个层面:虚拟机加密通过对虚拟机镜像进行全盘加密,确保即使运维人员拷贝镜像文件,也无法解密获取原始明文数据或文件内容,从而防止数据泄露;落盘数据加密采用磁盘分区加密技术,对存储设备上的数据进行加密保护,确保即使硬盘文件被拷贝或提取,也无法解密获取其中的明文数据或文件内容,有效抵御恶意访问和数据篡改风险。
图6可信数据空间服务平台密态存储设计
数据沙箱
数据沙箱作为受控的计算环境,提供了一种在高安全性隔离区内执行计算任务的机制,确保敏感数据不会在处理过程中被泄露或滥用。基于数据沙箱提供数据加工利用的开发环境与生产环境,脱敏后的样例数据经授权可以导入开发环境,使用样例数据对应用程序进行调试开发,如:调试、查看程序状态、日志和运行时信息等。应用程序在开发环境调试开发完成后,导入生产环境,真实数据传输至生产环境,在TEE可信执行环境提供的密态空间内完成计算任务。与此同时,数据沙箱采用一次性计算环境机制,在任务执行前创建临时可信执行环境实例,并在任务完成后销毁该实例,以防止计算后的残留数据泄露。
图7可信数据空间服务平台数据沙箱设计
机密计算
机密计算基于可信执行环境提供安全的计算环境,确保仅在可信执行环境内部运行的代码和数据能够被实时解密,从而保护计算过程中的数据安全,防止未经授权的访问和篡改,实现数据处理过程的不可见性。机密计算的主要流程包括以下三个步骤:数据迁移、应用迁移和机密计算执行。数据迁移指数据文件在本地加密后导入计算环境,并存储于加密虚拟机中,确保数据在传输和存储过程中保持安全;应用迁移指应用程序经过适配后部署至计算环境,使其能够在受可信执行环境保护的环境中运行,确保计算过程的安全性;机密计算执行指的是可信执行环境为服务器提供CPU硬件级隔离和内存加密,将应用程序代码和数据与任何具有特权的用户隔离。机密计算模块对加密数据进行解密,并在一次性任务容器中执行计算,计算完成后立即销毁任务容器,确保数据不会在计算结束后被保留或泄露。
图8可信数据空间服务平台机密计算设计
(2)信任管控层主要包含三部分能力:空间管理、使用控制和存证溯源能力。
空间管理
对可信连接器、用户和权限进行统一管理。通过统一接入认证和管理实现可信数据空间中的互联互通,对所有接入可信数据空间的可信连接器,使其使用统一身份标准准入连接,可以实现不同可信连接器之间的认证互联。在可信连接器接入认证过程中,可信连接器与可信数据空间服务平台之间通过双重认证机制来验证设备身份,确保只有授权的设备能够接入。此外,还能够根据连接器的角色和认证状态,空间管理模块可以定义可信连接器可以访问哪些资源或服务,如数据库、文件系统、API等。
可信管控
可信管控能力对接入的所有可信连接器之间、可信连接器和平台间的数据互操作提供使用策略控制的统一管理,包括制定、下发和执行。使用控制策略包括数据沙箱管控、人员访问控制和数据使用控制维度的策略。
存证溯源
平台可以对数据流通过程的所有操作进行记录,包括数据的采集、接入、处理、使用和销毁等阶段操作员的所有操作行为,仅审计员有权限查看/操作日志记录系统,确保数据的可溯源性和完整性。
风险评估
风险评估采用多层次的安全监测与分析技术,以实时识别和应对潜在安全威胁,保障可信性。TEE环境完整性检测机制利用远程证明,确保计算节点未遭受篡改,避免恶意固件或不受信任的软件运行。动态行为分析持续监控计算任务的执行模式,识别偏离预期行为的异常情况,如未经授权的数据访问、计算任务异常终止或资源占用异常波动等。此外,系统还支持基于实时风险评估的安全策略动态调整,能够根据当前的安全状况调整访问权限、限制可疑计算任务的执行,从而降低潜在安全威胁的影响。
首先可根据场景应用选择集中部署或分布式部署,集中部署可信数据服务平台集中管控各方可信连接器。分布式模式部署可采用可信连接器直接对接完成使用策略共享和数据互操作。
图9可信数据空间集中部署
图10可信数据空间分布式部署
其次可信连接器按使用场景可以分为“数据采集连接器”和“交付连接器”。采集连接器部署在数据提供方收集和接入数据,并确保数据的隐私性、安全性和完整性,其核心功能包括数据接入,数据脱敏、数据转换,认证和授权,数据发布与传输加密等。数据交付连接器主要部署在数据使用方接收和使用数据,确保数据的安全、高效和合规交付,其核心功能包括访问控制,动态授权、计量计费、结果展示和加密传输等。同时,可信连接器可结合客户的环境能力选择软件或软硬一体机模式。
5.1科研数据可信数据空间
绿盟科技与中国科学院微生物研究所、中国科学院计算机网络信息中心合作,面向重要高致病性病原菌及新冠、流感等病毒数据,在安全保护条件下进行分析和共享的需求,使用基于国产机密计算硬件的数据安全产品,对加密后的基因序列在密态的内存中进行序列分析。在此过程中,通过密码学、隐私计算、区块链等安全技术,保障包括计算分析服务提供方在内的各方,对数据可用不可见。其中进行互联互通的相关数据受到符合国家密码标准的数字签名技术保护,同时使用区块链技术完成了全流程行为审计,通过哈希、签名等密码学技术对关键流程进行存证,并提供科学数据链颁发的全网唯一的区块链证书以确保数据权益。通过对有数据风险保护要求的科学数据实现“可用不可见”的应用实践,为解决数据安全、数据确权等长期困扰数据流通利用的难题提供了解决方案,具有重要的示范意义。
图11科研数据可信数据空间解决方案设计
5.2医疗行业可信数据空间
应国家疾控局要求,为实现建立“全国一网统管、平台两级建设,数据统一采集、业务分级应用”的一体化省统筹区域平台,绿盟科技设计医疗行业可信数据空间,在医院侧部署采集可信连接器安全合规采集医学数据,统一接入疾控局可信数据空间平台,对接传染病监测预警与应急指挥信息平台,实现疫情监测、预警和应急响应能力,确保各级医疗卫生机构间的数据共享与协同防控。医疗行业可信数据空间不仅提升了疾控局传染病监测预警与应急指挥信息平台的数据安全和防御能力,还促进了各医院间的数据共享与协同防控,为公共卫生事业的健康发展提供了有力保障。
图12医疗行业数据空间解决方案设计
5.3公共数据可信数据空间
“数据二十条”提出要推进实施公共数据确权授权机制,数据局对各级党政机关、企事业单位依法履职或提供公共服务过程中产生的公共数据,要加强汇聚共享和开放开发,强化统筹授权使用和管理,推进互联互通,打破“数据孤岛”。绿盟科技通过构建“公共数据安全可信空间”,基于开发与生产环境隔离、密态存储、安全计算、审计溯源、权限控制以及可信执行环境,为公共数据授权运营提供安全可信的数据加工利用环境,以此实现数据高效合规流通使用。以公共数据安全可信空间作为安全基座,建设公共数据授权运营平台,主要涵盖数据授权管理体系、数据加工处理体系、数据产品开发体系、数据利用合规审核体系等功能体系。在保证公共数据“原始数据不出域、数据可用不可见”的条件下,通过可靠供给、溯源授权、可信处理、可控服务等技术,完成对公共数据安全合规加工使用,形成数据产品后面向政府、社会、产业提供服务,最终实现公共数据价值挖掘和市场化应用。
图13公共数据可信数据空间方案设计
可信数据空间基于数据可信流通技术,为数据流通各参与方提供高效便捷、安全可靠的数据流通保障,所以数据流通技术的安全性评估至关重要,通过对其进行安全性评估,可以增强行业信心,促进技术大规模部署。
目前已经有多种数据可信流通技术路线,而这些技术路线的评估规范标准存在差异,用户无法对所有的产品进行横向比较和选择。因此,制定数据可信流通技术通用评估规范类标准,针对不同安全等级的数据选择合适的数据可信流通技术,在安全、性能和成本之间实现平衡非常重要。
随着《国家数据标准体系建设指南》的发布,以数据“供得出、流得动、用得好、保安全”为指引,构建了涵盖数据基础设施、数据资源、数据技术、数据流通、融合应用及安全保障等模块的国家数据标准体系,相信,未来随着系列标准的制修订和落地实施,为数据可信流通提供规范化建设路径,成为赋能数字经济和数字技术发展的强劲动力。
参考文献
【1】国家数据局.《可信数据空间发展行动计划(2024—2028年)
更多内容详见《绿盟数据安全3.0专刊》
点击“阅读原文”查看报告完整版


