大数跨境

聚焦“两化融合”|大数据采集技术

聚焦“两化融合”|大数据采集技术 抚顺石化人
2022-02-11
2
导读:大数据采集处于大数据生命周期中第一个环节,是大数据分析至关重要的环节。

大 数 据 采 集 技 术

大数据处理关键技术一般包括:大数据采集、大数据预处理、大数据存储及管理、大数据分析及挖掘、大数据展现和应用(大数据检索、大数据可视化、大数据应用、大数据安全等)。数据采集是大数据产业的基石,如何从大数据中采集出有用的信息已经是大数据发展的关键因素之一,那么什么是大数据采集技术呢?


大数据采集处于大数据生命周期中第一个环节,是大数据分析至关重要的一个环节,也是大数据分析的入口。大数据采集技术面临着诸多挑战:一方面数据源的种类多,数据的类型繁杂,数据量大,并且产生的速度快;另一方面需要保证数据采集的可靠性和高效性,同时还要避免重复数据。



大数据的采集从数据源上可以分为四类:Web数据(包括网页、视频、音频、动画、图片等)、日志数据、数据库数据、其它数据(感知设备数据等),针对不同的数据源,所采用的数据采集的方法和技术也不相同。


01

web数据采集


网络数据采集是指通过网络爬虫或网站公开 API 等方式从网站上获取数据信息的过程。网络爬虫会从一个或若干初始网页的 URL 开始,获得各个网页上的内容,并且在抓取网页的过程中,不断从当前页面上抽取新的 URL 放入队列,直到满足设置的停止条件为止。这样可将非结构化数据、半结构化数据从网页中提取出来,并以结构化的方式存储在本地的存储系统中。通用型爬虫工作原理如下图


02

系统日志采集


系统日志采集主要是收集公司业务平台日常产生的大量日志数据,供离线和在线的大数据分析系统使用。高可用性、高可靠性、可扩展性是日志收集系统所具有的基本特征。系统日志采集工具大多采用分布式架构,能够满足每秒数百 MB 的日志数据采集和传输需求。目前常用的开源日志收集系统有Flume、Scribe等。 



03

数据库采集


传统企业会使用传统的关系型数据库 MySQL 和 Oracle 等来存储数据。随着大数据时代的到来,Redis、MongoDB 和 HBase 等 NoSQL 数据库也常用于数据的采集。企业通过在采集端部署大量数据库,并在这些数据库之间进行负载均衡和分片,来完成大数据采集工作。


04

其他数据(感知设备等数据采集)


感知设备数据采集是指通过传感器、摄像头和其他智能终端自动采集信号、图片或录像来获取数据。


数据的采集是挖掘数据价值的第一步,当数据量越来越大时,可发掘的有价值的信息也就更多更全面。只有更加充分地利用大数据处理平台,才可以保证分析结果的有效性和准确性,以便更加有效地助力企业精准决策。


策划|赵勇 毛军 董光顺 孙世杰

作者|李冬铃 衣林爽

责任编辑|田可冰

审核|毛军 孙世杰


【声明】内容源于网络
0
0
抚顺石化人
中国石油抚顺石化公司新媒体信息发布平台
内容 5424
粉丝 0
抚顺石化人 中国石油抚顺石化公司新媒体信息发布平台
总阅读1.2k
粉丝0
内容5.4k