大数跨境

数据安全白皮书(四)

数据安全白皮书(四) 数组智控产业发展科技院
2021-07-29
0
导读:四、数据安全的产业基础数据产业涉及到数据整个生命周期以及价值变现的全部过程的所有相关产业。具体包括数据采集、

四、数据安全的产业基础


数据产业涉及到数据整个生命周期以及价值变现的全部过程的所有相关产业。具体包括数据采集、数据存储、数据传输、数据管理、数据分析、数据挖掘、数据价值评估和交易等。数据安全的存在意义是保证数据在全生命周期得到妥善保护,最终实现价值变现并促进数字经济健康发展。因此,没有安全健康的数据产业做支撑,数据和数字经济就是空中楼阁,数据安全就失去了依托。


数据安全的产业基础架构示意图


数据产业涉及到数据存储层、数据处理层和数据使能层。数据存储层是数据产业的核心层,主要包括存储网络、存储介质和存储服务,由相关存储设备的硬件和软件组成,是数据业务和配套安全方案的根基。经调研发现,我国在数据存储的介质自主化、存储网络技术自主化、抵御灾害突发事件、绿色环保的可持续发展等方面还有较大的提升空间。数据产业界同仁应当遵循安全和发展同步推进的原则,以确保数据安全为前提,大力发展数据产业,为建设数字经济强国和全面建成小康社会提供保障。


在数据安全存储的基础上,企业需要选择相应的数据库、大数据软件、分析工具以及相关的技术架构,对数据进行采集、存储、检索、加工、变换和传输。这个过程在数据处理层完成,从大量杂乱无章的、难以理解的数据中抽取并推导出有价值、有意义的数据,挖掘和开发出数据的价值。数据处理场景涉及到数据协同共享处理场景、数据跨网或跨境场景等,这类场景处理更多在于数据授权、审计跟踪、数据脱敏等。目前,我国已基本具备数据库和大数据产业基础,但距离国际领先水平还有较大差距。


数据使能层是指对数据治理、分析和管理过程。对于企业来说,数据流动起来才能给企业组织带来效益和价值。数据使能场景从数据使用和流动的角度进行提炼,包括内部数据使用、内外交互场景、业务系统安全防护、移动应用等场景。数据使能需要根据界定的数据安全治理业务对象,识别数据资产,发现和定位具体数据管理对象,可以是静态存储的数据库系统、文档存储系统,也可以是动态数据处理系统,包括数据接口API、传输数据的网络系统等。


总体来说,数据存储层以硬件能力为主,更需要通过技术创新构筑产业硬实力,这也是我国数据安全亟待提升的产业基础能力。数据处理层和数据使能层以软能力为主,需要大力发展和培育软件产业生态,共同应对产业挑战,数据安全的主要目标是保护个人隐私安全,防止数据泄露,确保数据安全流动共享。


4.1 数据存储介质


存储介质有磁、光、半导体等,在数据基础设施中以机械硬盘(HDD)和固态硬盘(SSD)为主。对于HDD,我国并无相关产业,也没有掌握核心技术。但是在SSD领域我国已经掌握了关键技术,如在SSD的控制器芯片方面,国内已有厂商推出了量产的产品。在SSD的NAND Flash颗粒方面,国内厂商的制造工艺和生产能力也逐渐成熟。在基于NVMe协议的SSD技术方面,国内厂商的产品也已经在政府、金融等行业开始使用,由此可见我国的SSD产业正处在快速发展的阶段,并且日趋成熟。


表4-1 存储介质供应风险


从IDC 2020年的统计数据可以看出,全球使用全SSD的存储比例达到了40.8%,全HDD盘的占比不足20%,我国使用全SSD的存储比例为18.2%,全HDD盘的占比接近30%。在全球,SSD已逐渐成为数据基础设施中的主流存储介质,但是在我国,SSD的普及率还比较低。


图 4-2 IDC存储介质类型占比


从Gartner的全球数据来看,企业关键系统存储SSD到2024年占比将达到100%,且成本持续降低,而企业级HDD在2023年将接近生命周期的EOL 。西数、希捷等厂商也放弃了对高性能HDD盘的研发投入,从而转向了SSD盘。


表 4-2 2020年Gartner企业SSD和HDD市场分析


可以看出,全闪存已成为产业共识,加速“磁退硅进”已成为业界趋势,业界各主要厂商正在大力发展新一代闪存核心技术,并大力推动新型SSD在核心业务中的使用,越来越多的新基建也已经开始大规模采用全闪存产品。


4.2 存储网络


业务平台访问数据需要基于高速可靠的存储网络。过去传统的小型计算机系统接口协议(SCSI)一直是数据传输的主流协议,承载SCSI协议的技术主要有FibreCChannel(FC)和iSCSI(IP)两种方式。其中,FC传输协议主要涉及到FC接口卡(HBA)以及FC交换机两种产品,FC交换机的核心技术主要由国外厂商掌握,其全球市场占有率已经达到100%,我国无相关FC交换机产业,处于全面落后地位。相反,IP传输协议主要涉及到IP交换机和网卡产品,而这两种产品国内厂商都已经达到国际顶级水平。


随着远程直接数据存取(RDAM)和非易失性存储器接口协议(NVMe)SSD的技术不断成熟,存储传输技术正在朝着NVMe over Fabric(NoF)等方向发展,并且NoF在传输性能和稳定性上已经超越了FC,业界一致认为NoF网络将取代传统的FC专用存储网络。我国在以太网和NVMe领域技术积累较多,供应链完整且具备一定市场竞争力,应尽快在存储网络接口和标准方面确定高速以太网和NoF的主导地位,避免在FC-SAN和SCSI接口产业链上的潜在风险。


表 4-3 存储网络供应风险


根据IDC分析报告 ,在2020年有51.5%的存储网络使用了FC传输方式,有29.7%使用了iSCSI(基于IP),有18.2%使用了NAS(基于IP),FC和IP各自占据了一半的市场份额。但是,作为替代FC网络的NoF传输技术还未被IDC统计到相关数据,可见新型的NoF传输技术还处于大规模商用的初期阶段。


图 4-3 2017-2020年存储协议使用分析


当前是我国数据存储网络弯道超车的大好时机,应该大力推广新一代NoF高速存储网络,以适配NVMeSSSD全闪技术。在接口和标准方面确定存储网络全IP化的主导地位,加速完成国内存储网络的技术升级。


4.3 数据存储软件系统


软件是数据基础设施中的重要组成部分。数据存储软件要满足系统“进不去”“看不了”“拿不走”“混不了”“赖不掉”“靠得住”等安全要求。


“进不去”:用户认证功能,确保非法用户无法访问数据。

“看不了”:数据脱敏和访问控制实现对系统和敏感数据的保护,确保不会被非法用户看到。

“拿不走”:数据加密和安全访问接入实现对关键数据的保护,确保非法窃取后,关键数据依然无法访问。

“混不了”:多租户隔离实现各用户使用数据时环境隔离,确保各类数据独立使用,不被非法混用。

“赖不掉”:系统审计、数据水印等功能实现对于用户操作的全程记录,确保行为的抗抵赖性。

“靠得住”:数据产品从设计、开发、认证等多个维度确保整个研发过程安全可信。


由于我国基础软件研发起步晚、技术积累不足,众多厂家不得不在其软件开发中广泛使用开源技术,比较有名的开源软件有RedHat、Lustre、Ceph等,这些开源软件提供了数据的处理、存储、管理等各方面的能力。在高性能计算(HPC)领域,开源软件Lustre被大量使用,而在分布式存储领域,Ceph也被很多厂商采用。从2019年IDC中国区分布式存储的市场分析 可以看出,基于开源软件研发的存储占据了62%的市场份额,远大于基于自主软件研发的存储市场份额。


图 4-4 IDC 2019年中国区开源数据软件占比


开源软件带来了商业便利,但其可靠性低、存在安全隐患。由于大多数开源软件缺乏系统性的可信设计和验证,导致软件中存在大量安全漏洞,同时开源软件缺乏明确的安全责任主体,因此,使用开源软件存在安全风险的可能性比较大。Snyk2019年开源安全现状调查报告显示开源漏洞数量还在持续增长,81% 用户认为开发者负责开源软件的安全性,然而,只有 30% 的开源软件维护者认为自己具有高安全性意识。


构建我国自主的软件产业生态圈极为必要,鼓励国内数据软件厂商自主研发、掌握核心软件技术,并建立软件安全可信标准的认证实验室,推动数据软件产业高水平、安全发展。


4.4 数据基础设施的绿色节能


据赛迪报告数据显示,我国数据中心数量从2012年的5.1万个发展到2019年的7.4万个,超大型、大型数据中心数量占比达到12.7%(引用来源)。数据的计算和存储都将耗费大量的能源,而提升数据中心能源利用效率主要有两个方向:一个是降低数据中心能源效率(PUE),PUE的降低代表了数据中心空调制冷等支撑设备的能耗占比降低。面对数字经济和数据量的快速增长,建设运营低PUE的数据中心是保障数据基础设施供应和绿色节能的第一步。另一个方向是提升IT设备的能源利用效率,数据中心IT设备高效节能是支持数字经济长远可持续发展、实施大数据战略和数据强国战略的重要保障。目前,有效降低数据中心每TB数据耗能的主要技术创新措施有:


4.4.1 介质节能


介质节能是利用半导体存储代替磁介质存储,硅进磁退方式节约能耗。存储介质是数据保存的关键部件。当前已经从HDD的磁盘介质演进到SSD的半导体存储介质。


图 4-5 数据存储介质发展示意


最常用的1万转SAS(1.2TB)HDD组成的存储系统典型功耗约10.6W/TB。SSD去掉了机械结构,增加了存储密度,能耗显著低于HDD,以常用的SSD(3.84TB)为例,其组成的存储系统典型功耗约5.3W/TB,可降低约50%能耗。目前,我国的数据中心还是以HDD为主,约75%的数据中心使用HDD,如果全部采用SSD,我国数据中心总能耗预计能降低近5~6%。


因此,在数据中心中推动计算资源闪存化和存储系统资源闪存化可以有效节能。建议数据中心通过部署配置全固态硬盘的存储型服务器和全固态硬盘的存储系统。


4.4.2 架构节能


架构节能是通过存算分离架构,利用数据高密存储及纠删码技术来节约能耗。受限于散热和空间限制,普通的通用型服务器配备硬盘的数量有限,通常为1U10盘、2U24盘、4U36盘。而专门设计的高密存储型节点,能做到1U32盘、2U36盘、5U80盘、4U80盘、5U120盘,密度达到传统存储服务器的2~2.6倍,结合存算分离架构,相对使用通用型服务器,减少了节点CPU、内存及配套交换机,同等容量下带来能耗节约10%~30%。


图 4-6 大数据存算一体及存算分离示意


在大数据分析场景中,采用存算分离架构后,还可以利用数据纠删码(Erasure Code, EC)技术替代三次备份的方案,在实现同样可靠性等级的前提下把磁盘利用率从33%提升到91%,减少磁盘空间占用,节约能耗。


图 4-7 数据纠删码技术示意


4.4.3 算法节能


算法节能是利用数据重删压缩,相同空间存储更多数据的方式进行节能。借助闪存介质提升100倍性能。目前业界已经能够在数据库、桌面云、虚拟机等业务场景实现2~3.6的数据缩减率(重删压缩前数据总量/重删压缩后数据总量),相当于同样的存储空间能够储存2~3.6倍的数据,耗能节约50%以上。


数据重删技术是通过利用定长重删、变长重删、相似重删算法来检查数据块,然后把相同数据删除的技术。


图 4-8 数据重删技术示意


数据压缩、压紧技术是通过数据压缩、压紧算法把定长的数据块优化数据存储布局,节约存储空间。


图 4-9 数据压缩压紧技术示意


综合评估如上数据节能技术,为了应对数据的爆炸式增长,支撑企业更好的进行数据价值变现,建议在数据中心大规模普及全闪存及数据高密存储技术,节约数据中心数据存储耗能,使用同等电力情况下存储更多数据,来应对数字经济时代高速增长的数据存储需求。



【声明】内容源于网络
0
0
数组智控产业发展科技院
以AI技术为底层能力,聚焦智慧园区、城市公共安全、数智警务、健康医疗、能源电力、科研实验及平安校园等领域,提供从感知到决策的全流程软硬件一体化的国产装备智能体产品解决方案。
内容 986
粉丝 0
数组智控产业发展科技院 以AI技术为底层能力,聚焦智慧园区、城市公共安全、数智警务、健康医疗、能源电力、科研实验及平安校园等领域,提供从感知到决策的全流程软硬件一体化的国产装备智能体产品解决方案。
总阅读450
粉丝0
内容986