大数跨境

当前大数据发展面临五大困境——优质可用数据少、信息壁垒严重

当前大数据发展面临五大困境——优质可用数据少、信息壁垒严重 数组智控产业发展科技院
2022-04-20
1
导读:大数据作为一项新型技术,虽然给各行业带来了新的发展和突破,但也因为技术的不完善面临发展的困境。目前普遍认为大


大数据作为一项新型技术,虽然给各行业带来了新的发展和突破,但也因为技术的不完善面临发展的困境。


目前普遍认为大数据产业的困境有以下五个方面:


  • 优质可用数据少

  • 信息壁垒严重

  • 数据处理有困境

  • 实践应用障碍多

  • 云管理失误多。


一、优质可用数据少


随着大数据行业的兴起,数据价值得到了充分的肯定,“数据变现”也成为许多拥有大量数据资源的企业的新产业,比较成功的“数据变现”商业模式有利用数据支撑生活服务(如健康、教育等),也有利用数据分析指导营销策略的方式。


许多企业看到了数据的价值,就积攒了许多数据在手里,但是企业搜集的数据是否真的优质、是否能够发挥作用,并没有得到验证。


大数据产业的核心价值在于做出趋势预测,以网络营销为例(这也是大数据行业获得最多应用的领域之一),数据驱动带来了更精准的效果,这需要建立在优质数据的基础上。


但是由于数据采集过程不完善,企业获得的数据往往是不够优质的,这样就带来了数据清洗的问题。


每次在进行数据分析之前,数据科学家都要花费大量的时间在数据清洗上,既造成了人力资源的浪费,又使得最后可用的数据不够多。


要想充分理解大数据产业在数据质量上的窘境,就要先介绍一下数据的质量评定有些什么样的标准,优质数据又有着什么样的特征。


数据质量指数据能够反映实际情况的程度高低,一般通过以下五个方面进行衡量和评价:


数据质量评价标准


1.准确性


准确性是指数据在系统中的值与真实值相比的符合情况,常见的数据准确性问题有数据的值与实际值不同(数据来源出现问题)、与业务规范出现冲突(行业规范不完善或执行不力导致)等问题。


当数据的准确性出现问题时,数据最基本的要求就已经达不到了,自然是劣质的数据。


2.完整性


数据的完整性是指数据的完备程度,是否囊括了所需的所有方面的数据信息。


常见数据完整性问题包括系统未设定提取字段导致的相关数据的缺失和采集过程不全面导致的数据不完整等问题。


当发生了数据完整性问题时,数据对实际情况的描述就不够全面,那么根据这些数据建立的数据模型就容易发生以偏概全的问题。


3.一致性


一致性是指大数据软件系统内外部数据源之间的数据一致程度问题,包括数据形式是否一致、数据格式是否统一等。


数据一致性在数据联动的过程中非常重要,如果系统间应该相同的数据却不一致,就容易造成系统的报错和停止运行。


由于大数据数量庞大,且数据间的联动是大数据产业中常见的互动,数据的一致性具有非常重要的作用。


但因为大数据产业尚且缺乏统一的数据规范,不同企业间对数据的具体要求都不同,这给大数据产业带来了相当大的处理困境。


4.及时性


及时性是指数据在采集、传送、处理等环节对应用的快速支持能力的描述,考察的是数据的时间性能。


优质的数据能够实现在规定时间内完成系统所需数据的更新要求,而质量不够高的数据不能满足这一点,会给数据的后续处理带来不良影响。


5.可用性


可用性是用来衡量数据项整合和应用的可用程度的指标,常见可用性问题包括数据缺乏可应用功能(数据不具备可加工性,不能建立数据模型)、缺乏可整合性(数据过于分散,没有内在联系)等。


不具有可用性的数据对企业来说不仅没有好处,反而会因为降低数据的价值密度,给企业带来损失,因此可用性是衡量数据质量的重要因素。


在现在的大数据行业中,由于缺乏统一的大数据规范,数据的量虽然多,但是数据的质量却不高,仅仅收集了数据,并不意味着就能够得到战略上的应用指导。


数据的质量直接影响了大数据预测结果的可靠性,优质数据的获取对大数据的发展至关重要。


许多具有前瞻性的企业已经意识到了这一点,开始积极地进行大数据质量管理工作。


但由于大数据已经深入到了各个行业,要想统一数量管理标准并非易事,所以大数据的优化还有很长的路要走。


大数据时代带来了海量多样的数据,使对市场进行广泛且深入的分析成为可能,但这必须有优质数据作为支撑。


优质的数据可以为大数据应用提供更高的上限,而低质量的数据则必然拉低数据产业的下限,由此可见,数据质量是大数据行业的重要标杆。


而尴尬的是,由于大数据产业的兴起过快,业内并没有统一规范的数据衡量标准,因此造成了优质可用数据少的现状,为大数据产业带来了困境。


二、信息壁垒严重


大数据产业的一大特征就是数据的关联性强,著名的“谷歌预测流感”事件就是大数据关联应用的成功案例。


随着大数据产业的成熟,数据的关联场景也越来越多,例如支付宝的支付数据和用户的公交卡使用数据相联合,就能够为企业刻画出完整的用户日常出行路线和门店消费喜好。


单独的数据通过中间元素的串联,能够产生“1+1>2”的效果,数据的价值也呈指数型增长。


关联的数据越多,数据联合产生的“滚雪球”的效果越明显。这也从另一方面证明了数据必须要经过流通互动才能产生更大的价值。


但是真正开始实施数据关联时,就会发现实际操作并没有想象得那么简单,大数据产业中的信息壁垒仍十分严重,主要的具体因素有以下三点:



1.数据安全与信任问题


数据资源分散在不同的企业组织中,想要让不同行业的数据发生关联,必然需要将数据交付到另一方企业,或者双方将数据交付至一个共同的第三方平台以交易的形式发生数据交换,这也是大数据产业目前最常见的商业模式即大数据交易中心。


由于数据的特殊性,大数据交易平台能否保证数据不被泄露成为了阻碍大数据交易的首要问题。


数据的安全和信任问题成为大数据产业出现信息壁垒的重要因素。


2.数据统一问题


单纯从数据关联的技术手段来看,数据关联也存在着许多问题,比如不同公司对同一类型数据的分类标准不同、使用单位不同,这都给数据的融合统一带来了很大的困难。


而数据不能统一,就不能够直接被利用,这也给大数据造成了信息壁垒。


3.存储与传输问题


目前大数据的数据库为了适应不同的要求,有着不同的架构设计,这也就导致了在发生数据传输时会有着不同的传输方式。


而想要发生数据的联合,必须要创造出能够适应不同数据源的架构,这显然是一个非常困难的问题。


不能够用统一的方式解决数据存储和传输问题也给打破数据的信息壁垒带来了不小的困难。


国际数据公司(IDC)对大数据行业的统计及预测显示,预计到2020年,全球大数据总存储量将会达到44ZB(1ZB约等于1012GB)。


这么多的数据因为壁垒的存在,都处于沉睡的状态,并不能发挥出它们应有的能力。


针对我国大数据行业的信息壁垒现象,中关村大数据产业联盟秘书长赵国栋表示,相比于行业间的数据流通,政企之间的壁垒更是一块沉睡数据的“集聚地”。


目前一些上市数据如股权占比、科研数据都是价值密度比较高的沉睡数据。目前,数据壁垒普遍存在于政企之间、企业和企业之间,其中,有80%以上的信息数据资源掌握在各级政府部门手里,而不同区域的部门间基本实现信息共享的省级地区仅占13%。


由此可见,我国政府部门的信息共享和业务协同能力在地市和区县进展缓慢。在政企之间这种壁垒显得更加明显,从中国信息通信研究院对国内800多家企业的大数据使用调研结果来看,企业所使用的大数据的主要来源仍是其公司内部数据,有32%的企业数据来源是外部购买数据,而使用了政府开放数据的企业只有18%。


而数据开放的优势是可以预见的,上海至信普林科技有限公司总经理顾敏洁曾对数据开放持有非常乐观的态度,“如果更多数据可以开放,将会对产业转型、政务和公共服务效率提升等大有裨益。


比如中国人民银行上海总部自2006年起公开金融信息后,催生了一批金融信息咨询服务公司,其中还有5家上市公司,拉动的就业人数也非常可观。”数据开放的优势如此显著,但是由于信息壁垒的因素,现有大数据行业还远不能达到成熟的共享开放,甚至已经开放的数据也是“开放的孤岛”,比如一些机构以“数据共享”的名义公布的类似停车位数量、非标准化的图表等形式的数据,这些数据由于不可机读,不具备真正整合数据的价值,属于“伪开放”。


全国信息安全标准化技术委员会大数据标准工作组成员张群对数据整合开放的意见是“不同行业数据整合必然需要标准化的数据格式,比如从卫生、人口的角度用数据对‘人’进行的描述就是不一样的。”


因此真正属于开放性质的数据在技术上应该是具有标准形式的,可以直接被计算机抓取、调用。


针对目前大数据行业的现状,在技术上实现对数据的整合开放显然还有一段距离。


另外,要想顺利打破数据间的信息壁垒,还要推进大数据行业的法律法规机制,并且应结合应用场景有目的地实现开放,而非为了开放而开放。


中关村大数据产业联盟副秘书长陈新河说:“政企间或者政府牵头整合数据仍应围绕应用场景、项目工程来,否则目前‘唤醒’的数据早晚也会重新‘落满灰尘’。”


无论从技术上看,还是从法律上看,大数据行业的信息壁垒都是一个十分严峻的事实,阻碍着大数据行业进一步发展。


如果没有较好的解决办法,大数据行业的未来将十分危险。


【声明】内容源于网络
0
0
数组智控产业发展科技院
以AI技术为底层能力,聚焦智慧园区、城市公共安全、数智警务、健康医疗、能源电力、科研实验及平安校园等领域,提供从感知到决策的全流程软硬件一体化的国产装备智能体产品解决方案。
内容 986
粉丝 0
数组智控产业发展科技院 以AI技术为底层能力,聚焦智慧园区、城市公共安全、数智警务、健康医疗、能源电力、科研实验及平安校园等领域,提供从感知到决策的全流程软硬件一体化的国产装备智能体产品解决方案。
总阅读940
粉丝0
内容986