初识Hadoop

作者: 神豪VS勇士赢 | 来源:发表于2020-04-30 00:39 被阅读0次

1.什么是Hadoop

官网如下：
http://hadoop.apache.org
估计你们也不会点进去看。。。

简单的说：
Hadoop就是开源的分布式存储+分布式计算平台。

2.Hadoop 能帮我们做什么？
1）搭建大型数据仓库，PB级别数据的存储、处理、分析、统计等业务
2）日志分析
3）商业智能
4）数据挖掘

3.Hadoop 核心组件

HDFS 分布式文件系统
1）将文件切分成指定的大小数据块并以多副本的存储在多个机器上
2）数据切分，多副本，容错等操作对用户是透明的用户仅仅关心文件上

NameNode 和 DataNode 概念我们放后面。
这里放出来这张图片就为了展示出来文件分布式存储的一个概图，
part0文件分为 1 和 3 两个部分编号并且这两个部分都在两个节点有备份数据。就算挂掉一个节点另一个节点也会有本分数据。

image.png

YARN 资源调度
1）负责整个集群资源的管理和调度
2）YARN 的特点：拓展性，容错性，多框架资源统一调度
Hadoop 1.x 版本仅仅支持执行MapReduce
但是 2.x版本后支持 YARN 大大拓展了执行多框架的调度如下图：

image.png

MapReduce 分布式计算框架
1）拓展性，容错性，海量数量离线处理

mapReduce 最简单的wordCount 流程图：

image.png

5.狭义的Hadoop Vs 广义的Hadoop

image.png

6.Hadoop 的生态系统：

image.png

7.Hadoop 生态系统的特点：
1）开源社区活跃
2）囊括了大数据处理的方方面面
3）成熟的生态圈

7.Hadoop 常用的发行版和选型

image.png

推荐选择使用CDH的版本进行安装
http://archive.cloudera.com/cdh5/

网友评论

本文标题：初识Hadoop

本文链接：https://www.haomeiwen.com/subject/gbzowhtx.html

初识Hadoop