

知识拓展 | 大数据处理的四项关键技术

博雅慧聚

2018-12-06

数据处理是对纷繁复杂的海量数据价值的提炼，而其中最有价值的地方在于预测性分析，即可以通过数据可视化、统计模式识别、数据描述等数据挖掘形式帮助数据科学家更好的理解数据，根据数据挖掘的结果得出预测性决策。

大数据处理的关键技术及应用

一、大数据采集技术

数据是指通过RFID射频数据、传感器数据、社交网络交互数据及移动互联网数据等方式获得的各种类型的结构化、半结构化(或称之为弱结构化)及非结构化的海量数据，是大数据知识服务模型的根本。重点要突破分布式高速高可靠数据爬取或采集、高速数据全映像等大数据收集技术;突破高速数据解析、转换与装载等大数据整合技术;设计质量评估模型，开发数据质量技术。

大数据采集一般分为：

1)大数据智能感知层：主要包括数据传感体系、网络通信体系、传感适配体系、智能识别体系及软硬件资源接入系统，实现对结构化、半结构化、非结构化的海量数据的智能化识别、定位、跟踪、接入、传输、信号转换、监控、初步处理和管理等。必须着重攻克针对大数据源的智能识别、感知、适配、传输、接入等技术。

2)基础支撑层：提供大数据服务平台所需的虚拟服务器，结构化、半结构化及非结构化数据的数据库及物联网络资源等基础支撑环境。重点攻克分布式虚拟存储技术，大数据获取、存储、组织、分析和决策操作的可视化接口技术，大数据的网络传输与压缩技术，大数据隐私保护技术等。

二、大数据预处理技术

完成对已接收数据的辨析、抽取、清洗等操作。

1)抽取：因获取的数据可能具有多种结构和类型，数据抽取过程可以帮助我们将这些复杂的数据转化为单一的或者便于处理的构型，以达到快速分析处理的目的。

2)清洗：对于大数据，并不全是有价值的，有些数据并不是我们所关心的内容，而另一些数据则是完全错误的干扰项，因此要对数据通过过滤“去噪”从而提取出有效数据。

三、大数据存储及管理技术

大数据存储与管理要用存储器把采集到的数据存储起来，建立相应的数据库，并进行管理和调用。重点解决复杂结构化、半结构化和非结构化大数据管理与处理技术。主要解决大数据的可存储、可表示、可处理、可靠性及有效传输等几个关键问题。开发可靠的分布式文件系统(DFS)、能效优化的存储、计算融入存储、大数据的去冗余及高效低成本的大数据存储技术;突破分布式非关系型大数据管理与处理技术，异构数据的数据融合技术，数据组织技术，研究大数据建模技术;突破大数据索引技术;突破大数据移动、备份、复制等技术;开发大数据可视化技术。

开发新型数据库技术，数据库分为关系型数据库、非关系型数据库以及数据库缓存系统。其中，非关系型数据库主要指的是NoSQL数据库，分为：键值数据库、列存数据库、图存数据库以及文档数据库等类型。关系型数据库包含了传统关系数据库系统以及NewSQL数据库。

开发大数据安全技术：改进数据销毁、透明加解密、分布式访问控制、数据审计等技术;突破隐私保护和推理控制、数据真伪识别和取证、数据持有完整性验证等技术。

四、大数据分析及挖掘技术

大数据分析技术：改进已有数据挖掘和机器学习技术;开发数据网络挖掘、特异群组挖掘、图挖掘等新型数据挖掘技术;突破基于对象的数据连接、相似性连接等大数据融合技术;突破用户兴趣分析、网络行为分析、情感语义分析等面向领域的大数据挖掘技术。

数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中，提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。

数据挖掘涉及的技术方法很多，有多种分类法。根据挖掘任务可分为分类或预测模型发现、数据总结、聚类、关联规则发现、序列模式发现、依赖关系或依赖模型发现、异常和趋势发现等等;根据挖掘对象可分为关系数据库、面向对象数据库、空间数据库、时态数据库、文本数据源、多媒体数据库、异质数据库、遗产数据库以及环球网Web;根据挖掘方法分，可粗分为:机器学习方法、统计方法、神经网络方法和数据库方法。

机器学习中，可细分为归纳学习方法(决策树、规则归纳等)、基于范例学习、遗传算法等。统计方法中，可细分为:回归分析(多元回归、自回归等)、判别分析(贝叶斯判别、费歇尔判别、非参数判别等)、聚类分析(系统聚类、动态聚类等)、探索性分析(主元分析法、相关分析法等)等。神经网络方法中，可细分为:前向神经网络(BP算法等)、自组织神经网络(自组织特征映射、竞争学习等)等。数据库方法主要是多维数据分析或OLAP方法，另外还有面向属性的归纳方法。

大数据的浪潮仍在继续。它渗透到了几乎所有的行业，信息像洪水一样地席卷企业，使得软件越发庞然大物，比如Excel看上去就变得越来越笨拙。数据处理不再无足轻重，并且对精密分析和强大又实时处理的需要变得前所未有的巨大。

那么，在巨大的数据集中进行筛选的最好工具是什么?通过和数据骇客的交流，我们知道了他们用于硬核数据分析最喜欢的语言和工具包。

R语言

在这些语言名单中，如果R语言排第二，那就没其他能排第一。自1997年以来，作为昂贵的统计软件，如Matlab和SAS的免费替代品，它渐渐风靡全球。

在过去的几年时间中，R语言已经成为了数据科学的宠儿——数据科学现在不仅仅在书呆子一样的统计学家中人尽皆知，而且也为华尔街交易员，生物学家，和硅谷开发者所家喻户晓。各种行业的公司，例如Google，Facebook，美国银行，以及纽约时报都使用R语言，R语言正在商业用途上持续蔓延和扩散。

R语言有着简单而明显的吸引力。使用R语言，只需要短短的几行代码，你就可以在复杂的数据集中筛选，通过先进的建模函数处理数据，以及创建平整的图形来代表数字。它被比喻为是Excel的一个极度活跃版本。

R语言最伟大的资本是已围绕它开发的充满活力的生态系统：R语言社区总是在不断地添加新的软件包和功能到它已经相当丰富的功能集中。据估计，超过200万的人使用R语言，并且最近的一次投票表明，R语言是迄今为止在科学数据中最流行的语言，被61%的受访者使用(其次是Python，39%)。

此外，它的身影也渐渐出现在了华尔街。以前，银行分析师会全神贯注于Excel文件直到深夜，但现在R语言被越来越多地用于金融建模R，特别是作为一种可视化工具，Niall O’Connor，美国银行的副总裁如是说。 “R语言使我们平凡的表格与众不同，”他说。

R语言的日渐成熟，使得它成为了数据建模的首选语言，虽然当企业需要生产大型产品时它的能力会变得有限，也有的人说这是因为它的地位正在被其他语言篡夺。

“R更适合于做一个草图和大概，而不是详细的构建，”Michael Driscoll，Metamarkets的首席执行官说。 “你不会在谷歌的网页排名以及Facebook的朋友推荐算法的核心找到R语言。工程师会用R语言做原型，然后移交给用Java或Python写的模型。”

话说回来，早在2010年，Paul Butler就以R语言打造了全球的Facebook地图而著名，这证明了该语言丰富的可视化功能。尽管他现在已经不像以前那样频繁地使用R语言了。

“R正在一点点地过时，因为它的缓慢和处理大型数据集的笨重，”Butler说。

那么，他使用什么代替呢?请继续阅往下看。

Rython

如果说R语言是一个神经质又可爱的高手，那么Python是它随和又灵活的表兄弟。作为一种结合了R语言快速对复杂数据进行挖掘的能力并构建产品的更实用语言，Python迅速得到了主流的吸引力。Python是直观的，并且比R语言更易于学习，以及它的生态系统近年来急剧增长，使得它更能够用于先前为R语言保留的统计分析。

“这是这个行业的进步。在过去的两年时间中，从R语言到Python已经发生了非常明显的转变，”Butler说。

在数据处理中，在规模和复杂性之间往往会有一个权衡，于是Python成为了一种折中方案。IPython notebook和NumPy可以用作轻便工作的一种暂存器，而Python可以作为中等规模数据处理的强大工具。丰富的数据社区，也是Python的优势，因为可以提供了大量的工具包和功能。

美国银行使用Python在银行的基础架构中构建新的产品和接口，同时也用Python处理财务数据。“Python广泛而灵活，因此人们趋之若鹜，”O’Donnell说。

不过，它并非最高性能的语言，只能偶尔用于大规模的核心基础设施，Driscoll这样说道。

Julia

虽然当前的数据科学绝大多数是通过R语言，Python，Java，MatLab和SAS执行的。但依然有其他的语言存活于夹缝中，Julia就是值得一看的后起之秀。

业界普遍认为Julia过于晦涩难懂。但数据骇客在谈到它取代R和Python的潜力时会不由得眉飞色舞。Julia是一种高层次的，极度快速的表达性语言。它比R语言快，比Python更可扩展，且相当简单易学。

“它正在一步步成长。最终，使用Julia，你就能够办到任何用R和Python可以做到的事情，”Butler说。

但是至今为止，年轻人对Julia依然犹豫不前。Julia数据社区还处于早期阶段，要能够和R语言和Python竞争，它还需要添加更多的软件包和工具。

“它还很年轻，但它正在掀起浪潮并且非常有前途，”Driscoll说。

JAVA

Java，以及基于Java的框架，被发现俨然成为了硅谷最大的那些高科技公司的骨骼支架。 “如果你去看Twitter，LinkedIn和Facebook，那么你会发现，Java是它们所有数据工程基础设施的基础语言，”Driscoll说。

Java不能提供R和Python同样质量的可视化，并且它并非统计建模的最佳选择。但是，如果你移动到过去的原型制作并需要建立大型系统，那么Java往往是你的最佳选择。

博雅慧聚

博雅慧聚科技发展有限公司（简称“博雅慧聚Boya Focus”）成立于2017年3月16日，注册资金5000万元，是博雅软件与徐州市政府合资的创新型企业，总部位于徐州市泉山区。博雅慧聚依托股东的支持，结合徐州以及淮海经济圈的区域经济特征，以互联网+服务为核心，打造国内首家“互联网+测试”服务云平台；在大数据的信息化应用中，公司基于大数据分析，针对大气污染形势严峻问题打造出了多维度的空气质量监测分析平台，为环保智能化管理提供专业的数据分析和技术支持，全方位提升大气环境监察能力和管控手段；在交通行业领域，公司利用现代高科技，围绕云服务、大数据应用、智能传感器、物联网（IoT）等先进技术开展交通安全方面的技术与产品研发、应用展示服务，在道路危化品运输分析及监管、道路运输重点管控车辆安全态势分析及实时监控方面做出了多项大数据创新应用，为智慧交通建设提供全面优质的技术服务。

本文来源于网络，版权归原作者所有

【声明】内容源于网络

博雅慧聚

博雅慧聚致力于成为面向行业和应用的、以IT服务为核心的科技型创新公司。

内容 554

粉丝 0

博雅慧聚博雅慧聚致力于成为面向行业和应用的、以IT服务为核心的科技型创新公司。

总阅读346

粉丝0

内容554