Hadoop介绍
Hadoop是Apache旗下的一个用java语言实现的开源软件框架,是一个存储和计算大规模数据的软件平台。 Hadoop是Apache Lucene创始人Doug Cutting创建的,最早起源于一个Nutch项目。
-
2003年Google发变了一片GFS论文,为大数据存储提供了可行的解决方案。
-
2004年Google发表论文MapReduce系统,未大规模数据计算提供可行的解决方案。
-
Nutch的开发人员以Google论文为基础,完成了相应的开源软件HDFS和MAPREDUCE,并从Nutch中剥离出来成为Hadoop。
-
到2008年1月,HADOOP成为Apache顶级项目,迎来了它的快速发展期。
-
如今,国内外的互联网巨头都在使用Hadoop框架作为大数据解决方案,越来越多的企业将Hadoop技术作为进入大数据领域的必备技术。
Hadoop框架内容
狭义解释
Hadoop指Apache这款开源软件,它的核心组件有:
-
HDFS:分布式文件系统, 解决海量数据的存储问题
-
MAPREDUCE:分布式运算编程框架,解决海量数据计算
-
YARN:作业调度和集群资源管理的框架:解决资源任务调度
广义解释
指Hadoop生态圈。
Hadoop架构
Hadoop2.x架构内部模型
架构内部模型
HDFS模块
-
NameNode: 集群中的主节点,主要用于管理集群中的各种数据
-
SecondaryNameNode: 主要用于hadoop当中元数据的辅助管理
-
DataNode:集群当中的从节点,主要用于存储集群当中的各种数据
YARN模块
ResourceManager:接受用户的计算请求任务,并负责集群的资源分配
NodeManager:负责执行主节点分配的任务
网友评论