

教你一招 | Hadoop小文件合并

CDA数据分析师

2016-04-19

导读：在实际项目中，输入数据往往是由许多小文件组成

微信添加CDA为好友（ID：joinlearn），拉你入500人数据分析师交流群，点击阅读原文可查看CDA数据分析师交流群规范与福利，期待你来~

原文：http://www.cnblogs.com/codeOfLife/p/5406153.html

1、背景

在实际项目中，输入数据往往是由许多小文件组成，这里的小文件是指小于HDFS系统Block大小的文件(默认128M)，然而每一个存储在HDFS中的文件、目录和块都映射为一个对象，存储在NameNode服务器内存中，通常占用150个字节。如果有1千万个文件，就需要消耗大约3G的内存空间。如果是10亿个文件呢，简直不可想象。所以在项目开始前，我们选择一种适合的方案来解决本项目的小文件问题

2、介绍

本地 D：\data目录下有 2012-09-17 至 2012-09-23 一共7天的数据集，我们需要将这7天的数据集按日期合并为7个大文件上传至 HDFS

3、数据

本地 D：\data目录下的所有数据，如下图所示，数据地址