大数跨境

聚焦“两化融合”|大数据的关键技术

聚焦“两化融合”|大数据的关键技术 抚顺石化人
2022-01-14
0
导读:大数据的关键技术包括数据收集、数据预处理、数据存储、数据处理。


大数据的关键技术


01

什么是大数据

最早提出“大数据”这一概念的是全球知名咨询公司麦肯锡,它是这样定义大数据的:一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型以及价值密度低四大特征。
研究机构Gartner是这样定义大数据的:“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流转优化能力来适应海量、高增长率和多样化的信息资产。



02

大数据的关键技术有哪些

1、数据收集
大数据时代,数据的来源极其广泛,数据有不同的类型和格式,同时呈现爆发性增长的态势,这些特性对数据收集技术也提出了更高的要求。数据收集需要从不同的数据源实时的或及时的收集不同类型的数据并发送给存储系统或数据中间件系统进行后续处理。


2、数据预处理
数据的质量对数据的价值大小有直接影响,低质量数据将导致低质量的分析和挖掘结果。广义的数据质量涉及许多因素,如数据的准确性、完整性、一致性、时效性、可信性与可解释性等。


3、数据存储
分布式存储与访问是大数据存储的关键技术,它具有经济、高效、容错好等特点。分布式存储技术与数据存储介质的类型和数据的组织管理形式直接相关。


4、数据处理
分布式数据处理技术一方面与分布式存储形式直接相关,另一方面也与业务数据的温度类型(冷数据、热数据)相关。目前主要的数据处理计算模型包括MapReduce计算模型、DAG计算模型、BSP计算模型等。


策划|赵勇 毛军 董光顺 孙世杰

作者|李冬铃 衣林爽

责任编辑|田可冰

审核|毛军 孙世杰


【声明】内容源于网络
0
0
抚顺石化人
中国石油抚顺石化公司新媒体信息发布平台
内容 5424
粉丝 0
抚顺石化人 中国石油抚顺石化公司新媒体信息发布平台
总阅读4.1k
粉丝0
内容5.4k