作者简介
尹正
中国信息通信研究院云计算与大数据研究所工程师,主要从事数据资产管理等方面的研究工作。
周圣文
中国信息通信研究院云计算与大数据研究所工程师,主要从事数据资产管理等方面的研究工作。
张刚
民生科技有限责任公司数据架构师,主要从事数据资产管理、数据质量管理等方面的研究工作。
论文引用格式:
尹正, 周圣文, 张刚. 基于非结构化的数据管理探究[J]. 信息通信技术与政策, 2021,48(3):92-96.
基于非结构化的数据管理探究
尹正1 周圣文1 张刚2
(1.中国信息通信研究院云计算与大数据研究所,北京 100191;2.民生科技有限责任公司,北京 101300)
摘要:如何对海量的非结构化数据进行管理并从中挖掘更大的价值,决定了全球经济下半场的走向。结合全球数据生产与存储现状以及数据管理理论和技术的发展情况,对非结构化数据管理的成因、管理方法和非结构化数据管理发展进行了讨论,并对未来智能化数字管理的建设作出展望。
关键词:非结构化数据;人工智能;大数据;数据管理
中图分类号:TN919.5 文献标志码:A
引用格式:尹正, 周圣文, 张刚. 基于非结构化的数据管理探究[J]. 信息通信技术与政策, 2021,48(3):92-96.
DOI:10.12267/j.issn.2096-5931.2022.03.015
0 引言
随着人工智能技术、大数据技术以及5G等技术的不断发展,社会中每时每刻都在产生着海量的数据,产生的数据中不仅包含了结构化数据,同时也有大量的音视频、文本等非结构化数据。根据IDC在2021年的预测[1],在2020年以前人类产生的数据量每两年翻一倍,到2025年前后全球数据量将达到惊人的179.6 ZB,而其中大部分为非结构化数据,占据了全部数据量的80%~90%,并且非结构化数据增长的速度要比结构化数据增长的速度高出10~50倍之多。
如此海量的非结构化数据之中蕴含的价值不言而喻,如果将数据比作未来的新石油,那么在非结构化数据这口“油井”中所潜在的资源量则是惊人的。但是,由于非结构化数据中的信息含量和信息价值很难被界定,如何对其进行有效的管理,是一个棘手的问题。
1 为何要对非结构化数据进行管理
1.1 非结构化数据体量巨大
根据IDC公司在2021年的分析及预测[1],2025年,全球将产生179.6 ZB的数据,而这一数字在2021年约为83 ZB,全球数据量正在以约23%的速度增加。值得注意的是,在179.6 ZB的数据中,有144.3 ZB为非结构化数据(占比80%),虽然结构化数据在以约42%的速度增长,大于非结构化数据的20%,但由于非结构化数据的基数巨大,导致在数据总量上非结构化数据仍然以压倒性的体量占据领先的优势地位[2]。从发展趋势来看,当前的数据产生于个人与企业的比例大致相同,但随着时间的推移,企业将以更快的年复合增长率(24.2%)产生数据,相较于个人14.6%的增长率,未来从企业中产生的数据或将占据主导地位[1]。
随着光纤网络的普及,存储成本的下降以及新冠肺炎疫情的发展等影响,相较于企业,个人用户产生了大量的娱乐与社交媒体数据,这些数据大部分是图片、视频、音频等非结构化数据。对于企业而言,大部分的数据仍是一些非娱乐性的图片及生产数据,例如常见的文档、音视频、幻灯片等非结构化数据。值得注意的是,随着物联网的发展,物联网数据在未来激增,而物联网数据多为非结构化的信号数据,如何更好地存储、处理和管理好这些数据将是相关企业在未来发展中需要解决的一个难点。
1.2 非结构化数据管理需求强烈
(1)存储需求。全球数据正在以每隔几年翻倍增长的速度飞增,而其中非结构化数据占据了80%~90%的比例,IDC预测2025年将产生179.6 ZB的数据,而能够被存储下来的数据仅有约17 ZB[1]。受新冠肺炎疫情影响,全球数字化、线上化的进程加速演进,大量娱乐、社交、办公等场景的线下模式都要向线上进行一次“大迁徙”,5G、6G、光纤、云计算、物联网等技术的蓬勃发展使得数据的产生更为简单。如何更高效、廉价、安全地对数据进行存储,减少数据的流失是一个至关重要的关键性问题。
(2)管理需求。非结构化数据以多种结构的形式产生和展现,包括但不限于音视频、图片、文本等形式。企业面对大量的非结构化数据难以有效地进行管理,缺乏统一的标准,难以衡量数据的质量,传统的ETL技术难以应用在非结构化数据上。
(3)应用需求。非结构化数据量大、信息价值密度低,如何将占据了数据库中大量空间的非结构化数据灵活地运用起来并产生价值又是一大难题。传统的数据分析方法和工具难以从非结构化数据中获取到信息。数据科学家可以结合NoSQL数据库对非结构化数据进行人工解析,但这样无疑为数据科学家增加了大量的工作。当前无论是AWS、Azure还是阿里云,对于非结构化数据的处理主要是提供基础设施,并没有针对数据本身提供解决方案。
1.3 相关技术逐渐发展成熟
与结构化数据相比,非结构化数据具有一些本质上的区别,首先非结构化数据的容量要远大于结构化数据,其次非结构化数据产生的速度也要快于结构化数据,最后非结构化数据的来源相较于结构化数据更为多样。相较于结构化数据,非结构化数据为技术带来了更大的冲击和挑战。一方面,由于非结构化数据产生速度快、体量大,传统的Scale-UP扩展方式会导致性能与容量无法灵活扩展的问题[2],存储下来的数据也很难灵活地使用;另一方面,非结构化数据的价值信息密度更低,如何高效地批量处理如此之多的结构化数据也引起了新的思考。
随着技术的发展,Hadoop的HDFS、对象存储等技术也相继发展成熟,这保证了非结构化数据能够更为高效地存储与查询。存储成本的降低也允许非结构化数据以更低的成本储存下来。随着云技术的发展,非结构化数据存储在安全性、扩展性以及对配套人员的管理成本上都产生了质的飞跃。此外,随着人工智能(Artificial Intelligence,AI)技术的发展,利用语音识别等技术可以更方便地对非结构化数据信息进行挖掘。
2 如何管理非结构化数据
2.1 理论支撑方面
随着全球信息技术的飞速提升,数据量的暴增,数据管理、数据治理的话题又重回大众视野,如何更好地管理数据成为企事业单位、研究机构、专家学者关注的热点问题。仅从个别企业根据自身的数据管理经验出发来定义数据管理是不够严谨的,企业间有着行业、技术、人才等差异性,某个组织的经验难以拷贝泛化,如果不能形成全面的完善的理论体系,那么数据管理的建设成本是巨大的。所以,数据管理的理论研究是很有必要性。
2.1.1 现有数据管理理论
数据管理的概念在很早前就被提出。1980年,国际数据管理协会(DAMA International)[3]对数据管理问题进行研究讨论,并配以组织相关年会(EDW)、发表理论丛书(DM-BOK)、辅以考试认证(CDMP),为数据管理的理论建设提供了平台。DMBOK[3]聚焦于研究数据架构、数据建模和设计、数据存储和操作、数据安全、数据集成和互操作、文档和内容管理、参考数据和主数据、数据仓库和商务智能、元数据以及数据质量的问题,从输入输出的角度来构建各模块的知识体系(见图1)。
主办:中国信息通信研究院
《信息通信技术与政策》是工业和信息化部主管、中国信息通信研究院主办的专业学术期刊。本刊定位于“信息通信技术前沿的风向标,信息社会政策探究的思想库”,聚焦信息通信领域技术趋势、公共政策、国家/产业/企业战略,发布前沿研究成果、焦点问题分析、热点政策解读等,推动5G、工业互联网、数字经济、人工智能、区块链、大数据、云计算等技术产业的创新与发展,引导国家技术战略选择与产业政策制定,搭建产、学、研、用的高端学术交流平台。
《信息通信技术与政策》官网开通啦!
为进一步提高期刊信息化建设水平,为广大学者提供更优质的服务,我刊于2020年11月18日起正式推出官方网站,现已进入网站试运行阶段。我们将以更专业的态度、更丰富的内容、更权威的报道,继续提供有前瞻性、指导性、实用性的优秀文稿,为建设网络强国和制造强国作出更大贡献!
推荐阅读
你“在看”我吗?

