现在很多人把大数据就理解为Hadoop,虽然Hadoop生来就是为了处理大数据的,但是完全的划等号是有点不对的。
- Hadoop是一个虚构的名词
- Hadoop的项目作者的孩子给一个棕黄色的大象起的名字
什么是Hadoop
Hadoop是一个开源的,高可靠的,考扩展的,分布式的计算框架。
Hadoop是一个分布式系统基础架构,由Apache基金会开发,用户可以在不了解底层分布式细节的情况下,开发分布式程序,充分利用集群的威力高速运算和存储。
它包含的模块:
- Hadoop Common 通用的工具类
- HDFS Hadoop的分布式文件系统
- Hadoop Yarn 任务调度,和集群资源的管理
- MapReduce 并行的处理大数据集
- Ozone Hadoop的对象存储
狭义Hadoop & 广义Hadoop
狭义的Hadoop: 是一个适合大数据分布式存储,分布式计算和资源调度的平台
广义的Hadoop:指Hadoop生态系统,hadoop是其中最重要最基础的一部分,生态系统中的每一个子系统,只解决特定某一个问题域,不搞统一型的全能系统,而是小而精的多个系统。
注:Pig和Mahout基本上不用了
Hadoop流行原因
- 开源,可以对源码二次开发
- 社区活跃,参与者很多
- 涉及到分布式存储和计算的方方面面,Flume进行数据采集,Spark/MR/Hive进行数据处理,HDFS/HBase进行数据存储
- 已经得到业界的验证
最后
这就是Hadoop的概述
网友评论