- google开源3大件: hdfs,mapreduce,hbase,分别对应google不开源的gfs,mapreduce,bigtable
- hdfs,相当于一个磁盘文件系统,看作是window电脑的硬盘
- mapreduce,是专门用来做分布式计算的,由yarn来管理。yarn和hdfs没有一点关系。yarn是在不同结点之间来容错处理和调度计算任务的
- hdfs,mapreduce可能单独存在,可以直接操作hdfs存储文件,也可以只用mapreduce来做分布式计算
- zookeeper在大数据里来做高可用的,主从选举
- kafka,spark是做实时流式计算;hdfs,mapreduce是做离线计算的
- hbase是在hdfs基础上的key-value形式的nosql数据库,和基于文件的mengodb类似
- hive,hue是一个查询分析平台
- 一个老师(ResourceManager)把10张试卷分给10个同学(Container)做,用小组长(NodeManager)把试卷下发到每个同学中。如果有一个同学路途上厕所,小组长再安排一个其他同学来做,保证任务不中断。
image.png image.png image.png
网友评论