hadoop

作者: Depro | 来源:发表于2021-08-03 18:13 被阅读0次
  1. google开源3大件: hdfs,mapreduce,hbase,分别对应google不开源的gfs,mapreduce,bigtable
  2. hdfs,相当于一个磁盘文件系统,看作是window电脑的硬盘
  3. mapreduce,是专门用来做分布式计算的,由yarn来管理。yarn和hdfs没有一点关系。yarn是在不同结点之间来容错处理和调度计算任务的
  4. hdfs,mapreduce可能单独存在,可以直接操作hdfs存储文件,也可以只用mapreduce来做分布式计算
  5. zookeeper在大数据里来做高可用的,主从选举
  6. kafka,spark是做实时流式计算;hdfs,mapreduce是做离线计算的
  7. hbase是在hdfs基础上的key-value形式的nosql数据库,和基于文件的mengodb类似
  8. hive,hue是一个查询分析平台
  9. 一个老师(ResourceManager)把10张试卷分给10个同学(Container)做,用小组长(NodeManager)把试卷下发到每个同学中。如果有一个同学路途上厕所,小组长再安排一个其他同学来做,保证任务不中断。
image.png
image.png image.png image.png

相关文章

网友评论

      本文标题:hadoop

      本文链接:https://www.haomeiwen.com/subject/himevltx.html