

一分钟让你知道Hadoop是什么

章鱼大数据

2017-08-23

导读：hadoop是什么?Hadoop是一种分析和处理大数据的软件平台，是Appach的一个用Java语言所实现的

Hadoop是一个基于Apache开源协议、使用Java语言开发的大数据处理平台，支持在多台计算机组成的集群中实现海量数据的分布式存储与计算。

其核心架构由HDFS和MapReduce两大组件构成：HDFS负责大规模数据的可靠存储，MapReduce则提供高效的并行计算能力。

通过Hadoop集群，原始数据经过分布式处理流程最终生成结果，如下图所示：

HDFS：分布式文件系统

HDFS（Hadoop Distributed File System）将大文件切分为默认64MB的数据块，并以多副本形式分布存储于不同节点，确保高可用性和容错性。例如，文件data1被分割为3个数据块，并冗余存储在多个DataNode中。

MapReduce处理流程包括两个阶段：Map阶段对输入分片逐条处理，输出键值对；Hadoop自动按键排序并分组，作为Reduce任务的输入。最终结果由Reduce任务整合后写入HDFS。

Hadoop集群主要包含以下组件：

【声明】内容源于网络

章鱼大数据

1234

内容 755

粉丝 0

章鱼大数据 1234

总阅读5.7k

粉丝0

内容755