随着大数据的不断发展和成熟,在2018年的开始谈论大数据似乎已经没有什么新意,行业对于大数据的认知开始变得更加理性和客观,这是一种成熟的表现。但如果因此就认为大数据时代已经进入风平浪静的“发展期”,那么我们很可能会错过一场更加波澜壮阔的变革。
在过去几年,大数据产业更多关注的是如何处理海量、多源和异构的数据,并从中获得价值,而其中绝大多数都是结构化数据。不可否认,这些数据的体量足够巨大,然而我们今天必须承认这些只是冰山一角——行业公认的数据是,结构化数据仅占到全部数据量的20%,其余80%都是以文件形式存在的非结构化和半结构化数据,包括各种办公文档、图片、视频、音频、设计文档、日志文件、机器数据等,这些数据如同“暗网”一般地沉默着。
什么是非结构化数据
相对于结构化数据而言,不方便用数据库二维逻辑表来表现的数据即称为非结构化数据,包括所有格式的办公文档、文本、图片、XML、HTML、各类报表、图像和音频/视频信息等等。
非结构化数据库是指其字段长度可变,并且每个字段的记录又可以由可重复或不可重复的子字段构成的数据库,用它不仅可以处理结构化数据而且更适合处理非结构化数据,比如:全文文本、图象、声音、影视、超媒体等信息。非结构化数据库主要是针对非结构化数据而产生的,与以往流行的关系数据库相比,其最大区别在于它突破了关系数据库结构定义不易改变和数据定长的限制,支持重复字段、子字段以及变长字段并实现了对变长数据和重复字段进行处理和数据项的变长存储管理,在处理连续信息(包括全文信息)和非结构化信息(包括各种多媒体信息)中有着传统关系型数据库所无法比拟的优势。
非结构化数据:新价值和新挑战
未来世界将是非结构化的
世界随时都在发生变化,时至今日,对非结构化数据的管理和应用走到了一个重要关口。
一方面得益于存储成本的下降。随着存储技术和公有云平台的不断发展和成熟,用户可以拥有充足并且弹性可扩展的存储资源,用于存放更大量的非结构化数据,从而使得非结构化数据的积累和应用成为可能。
另一方面,新兴技术的快速发展也提高了行业对非结构化数据的重视程度。比如物联网、工业4.0、视频直播等领域的发展产生了更多的非结构化数据,而人工智能、机器学习、语义分析、图像识别等技术方向则需要大量的非结构化数据来开展工作,包括数据库系统也在不断向非结构化延伸。一推一拉之间,都要求我们以新的视角和方法去面对非结构化数据。
因此,未来对大数据的分析和应用将从结构化数据向非结构化数据转移,无论是消费级市场还是企业级市场,都会试图生产和采集更多的非结构化数据,并从中发掘商业价值。谁能够最先积累更多的数据,谁能够最先从中学到知识,谁就会领先一步,率先占领未知的空间。
目前,东方金信公司自己开发的产品--海盒大数据平台,涵盖了大数据产业链的数据采集、数据存储、数据管理、数据计算、数据分析挖掘、数据应用与数据展示的全部环节,提供高性能的海量数据处理能力,并且具有高可靠的安全管理系统和丰富的图形化交互界面。平台集成了多种数据存储方案,对结构化和非结构化的数据处理,都有一定的项目积累和经验。平台可以连接上万台设备、传感器和数据库的数据,能跨行业被安全地收集、交换与汇总,并实现源数据与目标数据源的准实时数据同步,之后对结构化数据和非结构化数据进行分类,由各个不同的组件进行分析和管理。

在数据计算、数据分析挖掘方面,海盒大数据平台也有不俗的表现,海盒大数据平台支持从文本、图象、声音、影视、超媒体等文件提取数据到大数据平台,并进行交互式分析和数据挖掘。同时,平台提供大规模并行处理系统的性能,用户可通过WEB界面,实现数据查询和处理等操作,实时监控任务状态等。可处理的数据包含全文文本、图象、声音、影视、超媒体等信息,可以针对这些文件做全文检索、语义分析、语音识别和图像处理等操作,通过这些操作,可以在文本数据挖掘、生成用户画像、音频分析、图形处理等方面为用户提供解决方案,从而为用户解决舆情分析、舆情处理、消费者购物行为研究报告、城市热力图、非法案件分析处理等一些业务上的需求。
非结构化数据带来的新机会
作为大数据产业的重要组成部分,甚至应该是产业的主体,非结构化数据一旦受到重视,注定将带来前所未有的发展机遇,吹响大数据时代下半场比赛的哨音。同时,由于非结构化数据的自身特征与结构化数据有着本质的差异,导致这场变革将是全链条的——从数据的生产、存储、流转、加工、处理,到最终的分析、应用和输出,无不和传统模式有着天壤之别。而在其中任何一个环节,都可能出现颠覆性的技术和模式,甚至形成独立的规模化赛道。因此,这一过程中所产生的机会和市场空间将是巨大的,我们甚至已经能够预见到一个百花齐放的新时代。
可以想象,当我们对非结构化数据有了足够的控制力,并能够充分利用的时候,我们得到的将是一个更加完整和富有生命力的世界,这个世界,事实上已经并不遥远。

