数据安全白皮书（五）- 大数跨境

首页

数据安全白皮书（五）

数组智控产业发展科技院

2021-07-30

导读：五、数据安全防护的关键技术数据安全防护关键技术是数据安全和隐私保护方案的基础。依据数据安全治理的理念，从软件

五、数据安全防护的关键技术

数据安全防护关键技术是数据安全和隐私保护方案的基础。依据数据安全治理的理念，从软件到硬件，从网络边界到内部，从事前准备到事后追溯，几乎所有的安全技术都可以用在数据安全的防护上。受篇幅所限，本节将着重介绍以下几个关键技术领域：

设备系统安全

防止攻击者利用设备软硬件的安全漏洞发起对数据的攻击。数据越敏感，对承载其存储和使用的设备的系统安全性要求越高。

密码学及隐私保护算法

在数据脱离系统安全机制保护的情况下，对数据安全和隐私提供保护。

认证和访问控制

根据数据等级以及相关业务的配套安全策略，对访问者的身份和权限进行管控。

数据安全管理

根据数据面临的风险，配置策略，构建对攻击快速感知和响应以及事后审计能力。

5.1 设备系统安全技术

从攻击的发展历史来看，基于系统的漏洞攻击是当前重要攻击手段。当一个操作系统甚至硬件的漏洞被攻击者利用时，攻击者就可能获得机会绕过安全机制，对系统数据进行攻击，进而造成严重的风险。一般来说，设备系统安全包括硬件的安全和操作系统的安全。而设备的系统安全能力构建有两个层面的考虑，即如何保证系统自身的完整性，以及如何支撑业务和数据的安全。常用的设备系统安全技术和设计理念如下：

5.1.1 可信启动

系统完整性保护的主要思路是基于硬件可信根，构建信任链，对系统进行完整性的度量，保证系统不被篡改。启动过程为链式关系，逐级进行签名校验，任何一级校验不过就视为启动出错。启动链完整性可以延伸到系统启动后的一些关键高权限应用，确保系统运行时具备基础的安全环境。

5.1.2 可信执行环境

可信执行环境（Trusted Execution Environment）可以为关键业务提供一个可信赖的安全执行环境，并且保护相关关键数据的机密性和完整性。可信执行环境的本质是隔离，典型的可信执行环境包括TrustZone，SGX等。可信隔离的方式包括处理器级隔离、特权模式隔离、软隔离，前两种方式依赖芯片提供特定支持，后者则是较容易在轻量级设备上部署。可根据不同场景的需要酌情选择。

5.1.3 操作系统内核的MAC

操作系统在运行过程中需要考虑防止黑客利用利用漏洞来提权。为了防范这种问题，操作系统应具备强制访问控制机制（Mandatory Access Control），典型的强制访问控制机制是SELinux。SELinux可以实现对系统资源的精细化访问控制。对于进程只赋予满足业务诉求的最小权限，对于系统服务进程等需要高权限访问系统资源的进程，需根据业务架构进行进程的分拆，只对关键核心进程保留高权限，其他无需高权限的进程仅保留满足业务需求的最低权限。

5.1.4 操作系统内核完整性保护

操作系统在运行过程中需要考虑防止黑客篡改内存中的内核代码。操作系统是设备资源管理的核心所在，负责绝大多数系统资源的管理和调度，也是为应用程序提供安全保障的最重要角色。操作系统本身代码规模庞大，在无法彻底消除漏洞的前提下，操作系统需具备一定的抵抗漏洞的韧性，降低操作系统漏洞被利用带来的危害性。

5.1.5 芯片安全

芯片安全包括芯片的自身安全和基于芯片的安全技术两个关键领域。芯片的自身安全保证了系统本身的安全可信，主要解决针对芯片和硬件的多种安全威胁，如新型侧信道攻击、以Rowhammer和骑士漏洞为代表的新型故障注入攻击和芯片级的后门与硬件木马。基于芯片的安全技术是以芯片和硬件为安全根，向上延伸出多种安全技术，自下而上的保障如固件、操作系统、软件等系统其它部分的安全，典型代表有可信计算技术、机密计算技术和密码学算法加速技术等。

众所周知，系统安全严重依赖于芯片和操作系统安全，芯片安全和操作系统安全一直都是学界的研究热点和业界难题，也是近年来大国间网络安全博弈的主要领域之一。因为芯片技术和操作系统本身具有的先进性和高技术门槛，基于芯片和操作系统的攻击一直高级黑客进行网络攻击和渗透的“杀手锏”。一直以来，每次针对芯片和操作系统的木马和安全事件都带来了较大的政治经济影响。如Shadow Brokers黑客组织在2020年泄露了NSA一些工具，其中名为DoublePulsar的后门程序可利用Windows系统（Windows XP，Windows Server 2003，Windows 7和8以及Windows 2012）部分漏洞进行恶意代码注入攻击。

作为整个ICT基础设施的底座和基石，芯片的安全技术以及标准体系的发展和完善任重道远。

5.2 密码学及隐私保护算法

密码学体系是保护数据安全的关键技术手段，国际上为了确保密码学算法具备足够的强度并且被正确使用，进行了大量的研究、标准、以及法律工作。以我国为例，《中华人民共和国密码法》《密码标准应用指南》《商用密码管理条例全文》等多部法律法规共同定义了密码算法和密钥保护的使用规范和实现方法。

密码学体系在数据存储、使用、传输等各个环节都发挥着重要的作用。在数据存储阶段，按照加密算法适用的不同层次，对数据的加密方案分为卷加密、文件系统加密、应用加密等。如IEEEP1619 “Standard for Cryptographic Protection of Data on Block-Oriented Storage Devices”定义了卷加密的标准，其中AES-XTS作为一种重要的卷加密的密码算法。文件系统加密，如Windows的EFS，通过和文件系统的深度结合，实现用户无感知的加解密。应用加密指的是在数据落盘前，由应用负责对数据进行加密。不同层次的密码算法是相互补充的关系，多层次的加密体系互相配合，保证在存储介质即使被盗但是在密钥得到很好保护的情况下数据明文不被泄露。

与存储阶段的分层次的加密方式类似，传输阶段对数据的加密自下而上分为物理层加密、MAC层加密、网络层加密、传输层加密和应用层加密。目前，物理层加密主要集中在研究阶段，实际部署很少，主要分为基于密码算法的数字信号加密和基于调制解调或混沌理论的模拟信号加密两种手段。MAC层加密由思科公司提出并标准化为IEEE 802.1AE标准。该标准采用AES-GCM标准算法进行加密，密钥由上层协商或手动注入。网络层加密的协议以IPSec为代表，主要用于VPN等安全协议。传输层加密的代表协议是日常使用最多的TLS协议，是当前网络传输安全的重要基石，也是很多上层应用的重要组成部分。应用层加密主要与业务强相关，比如近期谷歌、脸书和思科联合推动的MLS协议就是一个应用层端到端加密消息的协议，里面代表性的密码算法包括使用TreeKem解决端到端加密协议中对大群组不友好的问题。同存储加密一样，传输的分层次加密各个层次之间是互补的关系且不可替代，每一层次应对的安全挑战不同，解决的安全问题不同，各个层次相互配合才能保护数据传输安全。在传输的加密设计过程中要考虑到数据的解密节点是否足够安全。如果数据流动过程中会经过不可信的设备，应考虑端到端加密的方案。当数据加解密被大规模使用以后，其带来的性能开销需要慎重的考虑。安全与效率永远是矛盾体，目前主要有两种手段来解决，一种是改进加解密算法，比如NIST现在正在进行的轻量化算法竞赛，另一种是通过硬件加速，可以使用专用硬件（比如ARM和X86都有提供的AES指令集或者苹果的Enclave芯片和谷歌的Titan芯片），也可使用通用平台的特殊特性（比如ARM和X86都提供的SIMD架构）。通过多种方式的配合可以缓解这个矛盾。

使用阶段的数据保护是数据安全的重要挑战，主要解决手段可以分为保护和脱敏。保护的基本思想还是基于数据加密。第一种保护方法是基于可信执行环境可以达到保护数据的目的。所有在可信执行环境内的运算和数据对外都不可见。第二种保护方法时基于密码学算法，比如同态加密、多方计算、可搜索加密等。以同态加密为例，同态加密允许在加密数据上进行运算，并得到加密的运算结果。攻击者无法在运算过程中得到数据。

脱敏的基本思想区别于传统数据安全，通过隐私保护算法将数据的敏感部分清洗掉，从而允许非敏感部分公开使用。隐私保护算法是解决数据的处理方和交换数据接收方可能泄露敏感数据的问题的重要技术手段。脱敏算法可以在保留数据原始特征的同时改变部分数值，防止数据的处理方或接收方因意外或有意的窃取敏感数据，同时又可以保证相关的业务处理不受影响。常用的算法包括：①泛化算法。考虑了多维属性之间的关联关系，防止从多个属性或多个数据集关联识别个人，泛化要达到的指标包括K-anonymity、L-diversity、T-closeness等；②差分隐私算法。通过增加随机的噪声，对个人的敏感信息进行匿名化处理。数据脱敏技术在隐私合规场景下被广泛应用，比如AI模型训练、大数据统计等，即在保留数据意义和有效性的同时保持数据的安全性并遵从数据隐私规范。

密码学是安全解决方案的基础。密码算法的不当使用，或者使用有缺陷的密码算法，将造成严重的数据安全隐患。在国际上的密码学标准长期被西方管控，这对国家安全造成了严重的影响。2013年12月，据路透社披露，NSA通过买通RSA公司将有安全风险的Dual_EC_DRBG算法作为Bsafe设备中的首选随机数生成算法。在我国有大量RAS用户，涉及通信、金融、制造业等行业重要用户，如中国电信、中国移动、中国联通、中国网通、中国银行、中国农业银行、中国工商行、中国建设银行、华为和海尔等。因此，加强对密码学的研究以及密码学系统和设备的有效管控是保护数据安全重点考虑的要素。

5.3 认证和访问控制技术

认证和访问控制是通用的安全技术。任何对数据的相关操作或者对访问数据的软硬件操作请求都必须经过认证，以确定其身份的合法性，进而通过访问控制来确定数据访问者有足够的权限。对于不同的访问控制系统，对数据访问者的身份的关注点可能也不同。比如根据不同的访问控制策略，访问控制系统可能需要判别对数据的请求是否来自一个合法的用户，是否来自一个合法的设备，或者来自合法的应用。相应的，一个认证体系可能需要对自然人，对设备，或者对应用进行认证。当前对用户的认证过程中除了传统的密码之外，往往还需要考虑基于生物特征或者硬件OTP（One Time Password）的方案来增加认证结果可信性，以应对目前越来越猖獗的基于社会工程学和盗取凭据的攻击手段。对于设备的身份认证，一般是基于提前部署的证书等凭据对设备的真实性进行校验。对于代码的认证，则一般是通过签名来对代码的合法性进行校验。

针对用户对数据安全访问服务的多样性，结合数据生命周期访问需求和特点，可以采用基于角色访问控制或者基于属性访问控制等方案来实现数据有效的管控。

当前，数据安全防护的场景复杂。特别是新冠疫情对企业运行及人们的工作方式产生了巨大的影响，越来越多的设备在企业的安全边界以外访问数据。在带来了工作便利的同时，也模糊了安全边界，增加了安全管控的难度。根据《电信和互联网行业数据安全治理白皮书（2020年）》统计，中国软件评测中心网安中心在电信和互联网行业的威胁监测中，发现80%的安全漏洞或问题与数据安全相关，其中非授权访问是主要的攻击手段，包括弱口令、授权绕过、未进行身份验证等。

为了缓解日趋严重的数据安全风险，业界正在数据存储、处理和传输的系统认证和访问控制设计中广泛引入零信任的理念，即无论是处于网络界限之内或是之外，系统都不应该自动信任任何人和设备。连接到组织系统的任何人和设备在获取访问权限之前，必须首先验证其身份和权证。根据Forrester2020年二季度关于零信任产业的统计数据，零信任相关营收超过1.9亿美元的厂商已超过10家，零信任已进入规模化产业发展阶段。同时，美国政府和军队都将零信任的实施作为优先事项。2019年以来美国国防创新委员会、美国国家标准委员会等机构均发表了零信任相关的报告或标准。2021年5月，拜登政府上台后，发布《关于改善国家网络安全的行政命令》，要求美国联邦政府专项安全的云服务和零信任架构，并强制要求在特定时间内部署多因素认证和加密。同月，美国国防信息系统局（DISA）公开发布初始国防部（DoD）零信任参考架构，增强其网络安全并在数字战场上保持信息优势。2019年以来，我国先后发布了《关于促进网络安全产业发展的指导意见（征求意见稿）》《零信任安全技术—参考框架》《信息安全技术零信任参考体系架构》等国家和行业标准，加强我国零信任架构部署和实施。

5.4 关键业务的高可靠数据保护技术

我国关键业务的数据保护特别是关系到国计民生的关键行业和核心数据保护水平还落后于发达国家。关键业务数据要求高可靠、高性能、高效能、高可信，需要通过高端存储和数据灾备保护来确保关键业务数据的安全性。

高端存储具有可靠性好、能效高、性能强等特点，适用于对业务连续性和安全可信有很高要求的关键业务场景。目前，我国数据存储市场仍以中低端为主，高端存储应用占比不到15%，而发达国家的高端存储应用占比达43%，建议我国大力提升高端存储占比，提升数据存储性能和安全性。

另外，虽然数据基础设施的资源和管理水平都有了较大提升，但是数据集中也引发了新的问题。由于故障域变得更大，任意一个小的设备故障或者灾难都可能会引发大面积的业务中断，甚至数据永久丢失。近年来发生了多起由于自然灾害，人为破坏等因素带来的数据丢失的案例。

我国政府非常重视对数据的保护，通过《网络安全法》及《关键信息基础设施安全保护条例（征求意见稿）》等相关立法，来要求金融、通信、能源、交通、水利等行业对关键数据基础设施进行容灾保护。2007年，发布国家级强制性标准《GB/T 20988-2007信息安全技术信息系统灾难恢复规范》，定义了灾难恢复能力等级。但是，该规范定义的系统恢复指标比较宽松，场景没有细化，不能适应当前智能时代对信息系统安全保护的要求，亟待修订完善。

2019年，为了配套《网络安全法》实施，国家市场监督管理总局、中国国家标准化管理委员会联合发布《GB/T 22239-2019信息安全技术网络安全等级保护基础要求》，形成了新的网络安全等级保护基本要求标准，针对应用和数据安全，规范了基础设施灾备保护技术和管理要求。其中，技术要求按照四个等级进行规范和评估：

据调查，金融领域对信息系统要求非常高，虽然绝大部分核心业务建设了灾备体系，但是由于测评标准不完善，在测评过程中并未对容灾体系进行模拟切换演练。当灾难发生时，出现了“不敢切换”“不能切换”等情况，导致90%的灾备体系不具备真正的业务延续性，无法保证业务7*24小时不中断。而在运营商、医院等行业领域情况更加严重，只有不到10%的核心业务做了灾备。由此可见，我国数据基础设施的灾备体系还不太健全，大部分还是流于形式。

数据安全灾备保护的要求不仅仅是关注当前，更需要着眼未来。2020年，全球最大的开源代码社区Github宣布代码永久封存北极底下1000年，永久保护人类文明智慧结晶。我国从国家法规和行业管理办法层面，对核心关键业务数据的归档长久留存制定了相关保护管理法规和规范要求：在政府电子档案、金融会计档案、档案馆、司法档案、广电音视频资料、医疗病历影像、医疗监管、油气勘探测绘等各个领域都有数据档案资产长期低成本保护诉求。

通过不断优化数据基础设施的灾备保护技术和管理体系，完善基础设施灾备体系建设，将进一步保障数字经济基础设施平稳健康发展。

5.5 数据安全管理技术

5.5.1 数据资产安全分析技术

数据安全治理的基础要求就是摸清被保护的数据资产。只有摸清数据资产底数，才可能对数据进行全面的、细粒度的安全管理。比如，为了判断系统中数据是否获得了有效地保护，首先需要了解在系统中特定数据如何被存储、存储位置、配套安全策略、业务内容及范围以及用户访问数据权限等。

数据资产梳理的关键技术首先是数据发现，即确定数据的存储分布状况，按照数据分类分级的规则，对数据打标签，形成完整的数据资产视图。这类技术可以大大降低数据资产梳理过程中的工作量，有助于对于数据的安全死角（比如数据处理过程中的中间数据、敏感数据）进行扫描，解决数据安全管理“灯下黑”的情况。在数据的存储分布情况的梳理基础上，可以进一步对数据访问、流动、共享进行梳理和分析，形成数据访问、传输和共享的流图。

结合安全合规策略，数据资产安全分析还可以对数据合规风险进行更全面的评估，判断数据是否已经根据特定合规的要求得到了有效的保护。对于存在风险的数据，可以结合检测和响应的能力进行修复。

5.5.2 数据安全审计

随着数据与业务逐渐独立，数据来源多样化，数据起源信息变得十分复杂。同时，数据处理过程中也容易受到内部和外部伪造、篡改、重放等攻击。数据在不同的业务之间流动和处理成为常态。在安全事件追溯过程中，数据安全责任主体增多，数据流动环节复杂度增大，安全事件审计确权确责难度加大。更不用说，数据分享经常是跨组织、跨安全系统边界进行。这些都使得攻击行为的追溯变的极为困难。因此，一个完善的数据安全审计方案需要慎重考虑数据整个生命周期。

数据采集阶段

数据采集阶段是数据生命周期的起点，数据分类和分级管理从这里开始。在这个阶段，对数据类别和级别进行标注会对后续数据处理产生重要影响，通常涉及元数据操作。数据采集阶段的审计重点工作之一确保元数据操作的可追溯性。通过对数据分类、加密、隔离等操作审计，确保对采集数据进行分类分级和防护的整个过程的追溯。

数据传输阶段

数据传输的安全审计需要重点关注传输安全策略的执行情况，对发送方和接收方的设备、接口、通讯协议以及加密方法等信息进行记录，及时发现传输过程中可能引发的敏感数据泄露事件，通过数据传输双方的日志信息可以发现异常传输的行为

数据存储阶段

数据存储阶段的安全审计主要是对数据存储和读取的动作以及备份的行为进行审计。通过对数据操作主体、时间、操作类型的分析，发现数据访问者的可能异常行为并确保数据配套的存储安全策略得到正确的执行。

数据处理阶段

数据处理阶段的安全审计是对数据处理各个业务接口的操作记录进行审计，可以帮助发现数据处理当中的风险。另外，数据处理阶段的安全审计重点之一是关注脱敏处理过程，对敏感数据脱敏相关操作的记录进行审计，可以帮助发现机密信息或者个人数据隐私可能泄露的情况。

数据交换阶段

数据交换过程的安全审计是数据安全审计过程的重点。在数据共享阶段，需要对高价值的数据的导入、导出、共享操作进行持续监控，并且要审计和追溯交换数据是否已经脱敏，是否已经加密，或者保留有水印等。

数据销毁阶段

数据销毁阶段的安全审计重点关注对存储介质和数据的访问行为、数据销毁过程进行监控。相关审计信息应该包括数据删除的操作时间、操作人、销毁的方法、数据类型，操作结果等相关信息。

5.5.3 人工智能技术

人工智能是数据安全的倍增器，广泛应用到数据安全各个方面。在数据分类分级的过程中，基于人工智能的方案可以对更加复杂的上下文进行分析。在认证访问控制以及检测响应的过程中，基于人工智能的方案可以更有效地发现攻击者的异常行为，提高检测的精准度和系统应对攻击的响应能力。

根据《中国网络安全产业白皮书》，当前人工智能与数据安全结合的越来越紧密，目前业界人工智能在数据安全领域成功的应用经验包括：

数据分类和合规分析：人工智能在敏感数据挖掘、图片文件内容实时监控和标记、数据防泄漏等方面都有很好的效果。比如：亚马逊推出 Amazon Macie Analytics 服务，可通过机器学习技术自动识别重要数据访问、复制、移动等可疑行为，并实施精准实时的修复措施，防范重要数据暴露及共享业务中的数据安全风险；Netapp推出了数据分类分级产品，利用人工智能提升了数据分类的精准程度，并且可以支持自动生成包括GDPR在内的多种法律法规的合规报告，提升了数据安全治理的效率；亚信安全的数据分类分级发现系统可以在数据块维度进行多任务并行处理，利用机器学习+语义分析生成训练模型，提高数据分类速度和精度，并提供数据特性及变化趋势展示。

通过人工智能算法训练加密流量检测模型，对异常数据传输进行分析。思科的人工智能驱动的加密流量分析方案，使用机器学习算法，在分析初始数据包特征以及后续数据包长度与时序等的基础上识别加密后的异常流量。

借助机器学习技术来检测组织系统和网络中的异常行为，并根据异常信息来检测网络攻击，自动形成应对的操作，减少针对数据攻击的风险。目前IBM 推出 Resilient 事件响应平台，可提供响应流程定制功能，灵活编排响应活动并自动审计跟踪，实现对威胁事件的快速响应；Palo Alto Networks推出人工智能安全平台 Cortex，致力于打破网络、云端、终端数据孤岛，并支持对海量数据分析、威胁发现及响应策略快速编排。

人工智能在数据安全领域的应用有巨大的潜能，但同样存在巨大的安全风险。中国信通院的《人工智能白皮书（2018）》对人工智能安全面临的挑战进行了系统分析，比如目前很多人工智能算法在设计之初普遍未考虑相关的安全威胁，使得人工智能算法的判断结果容易被恶意攻击者影响，被污染的样本所误导，导致人工智能系统判断失准。人工智能缺乏道德规范约束，可能导致公众权益受到侵害。比如，2021年，我国315晚会上曝光部分商家利用人脸识别技术搜集顾客信息的违法行为。

因此，如何保证人工智能自身安全和监管人工智能使用，是业界需要慎重考虑的问题。

【声明】内容源于网络

数组智控产业发展科技院

以AI技术为底层能力，聚焦智慧园区、城市公共安全、数智警务、健康医疗、能源电力、科研实验及平安校园等领域，提供从感知到决策的全流程软硬件一体化的国产装备智能体产品解决方案。

内容 986

粉丝 0

数组智控产业发展科技院以AI技术为底层能力，聚焦智慧园区、城市公共安全、数智警务、健康医疗、能源电力、科研实验及平安校园等领域，提供从感知到决策的全流程软硬件一体化的国产装备智能体产品解决方案。

总阅读450

粉丝0

内容986