Hadoop概述
背景
三大论文:
-
GFS:HDFS
-
MapReduce
-
Bigtable:HBASE
什么是hadoop
-
开源的:免费
-
可靠的:及时进行数据备份,及时恢复数据
-
可扩展:对一个大的集群,机器的动态增减不会影响集群的运行
-
分布式计算:并行处理
解决的问题
-
海量数据的存储:HDFS
-
存储海量数据
-
动态添加机器
-
备份(默认三份,可自定义)
-
当数据文件损坏时,快速恢复
-
-
海量数据分析: Mapreduce
-
海量
-
核心理念:分而治之
-
-
对集群资源的管理和任务调度: Yarn
-
资源管理:CPU,内存
-
任务调度:合理安排任务去分配资源,保证集群健康
-
Hadoop的特点
-
扩容能力强
-
成本低:普通pc都可以当做node
-
高效率:速度快
-
可靠性:备份
应用场景
-
日志分析
-
推荐系统
-
GPS导航分析
生态圈
image.pngHadoop的核心内容
-
Hadoop Common
-
HDFS
-
YARN
-
MapReduce
网友评论