Hadoop是一个开源框架,用来在分布式环境中存储和计算处理大型数据。由此可见Hadoop主要有两个功能:一个存储一个是计算。其实Hadoop正是包含两个模块:一个是分布式文件系统(HDFS),一个是分布式数据计算框架(MapReduce)。
- MapReduce:mapreduce是一种并行编程模型,用来在大型集群环境中处理大型结构化,半结构化以及非结构化数据。
- HDFS:分布式文件系统,用于存储和处理数据集,提供了一个可容错的运行在普硬件上的文件系统。
Hadoop生态系统:
- Yarn
- HDFS
- MapReduce
- Hive
- Hbase
- Pig
- Sqoop
- Flume
- Zookeeper
网友评论