1.什么是Hadoop
官网如下:
http://hadoop.apache.org
估计你们也不会点进去看 。。。
简单的说 :
Hadoop就是开源的分布式存储+分布式计算平台。
2.Hadoop 能帮我们做什么?
1)搭建大型数据仓库,PB级别数据的存储、处理、分析、统计等业务
2)日志分析
3)商业智能
4)数据挖掘
3.Hadoop 核心组件
HDFS 分布式文件系统
1)将文件切分成指定的大小数据块并以多副本的存储在多个机器上
2)数据切分,多副本,容错等操作对用户是透明的 用户仅仅关心文件上
NameNode 和 DataNode 概念我们放后面。
这里放出来这张图片就为了展示出来 文件分布式存储的一个概图 ,
part0文件 分为 1 和 3 两个部分编号 并且 这两个部分都在 两个节点有备份数据 。 就算挂掉一个节点 另一个节点也会有本分数据 。

YARN 资源调度
1)负责整个集群资源的管理和调度
2)YARN 的特点: 拓展性,容错性,多框架资源统一调度
Hadoop 1.x 版本 仅仅支持执行MapReduce
但是 2.x版本后支持 YARN 大大拓展了执行多框架的调度 如下图:

MapReduce 分布式计算框架
1)拓展性,容错性,海量数量离线处理
mapReduce 最简单的wordCount 流程图:

- Hadoop的优势:
1)存储: 数据多块,多副本。
2)计算:重新调度作业计算。
3)拓展:可以横向拓展机器,解决资源不够等问题。一个集群甚至可以支持上万个节点。
4)存储在廉价的机器上 节省服务器花费
5)有成熟的生态圈
5.狭义的Hadoop Vs 广义的Hadoop

6.Hadoop 的生态系统:

7.Hadoop 生态系统的特点:
1)开源 社区活跃
2)囊括了大数据处理的方方面面
3)成熟的生态圈
7.Hadoop 常用的发行版和选型

推荐选择使用CDH的版本进行安装
http://archive.cloudera.com/cdh5/
网友评论