美文网首页
初认hadoop

初认hadoop

作者: 被java耽误的快递员 | 来源:发表于2017-10-18 15:43 被阅读10次

什么是hadoop?

hadoop = teh hadoop projects

hadoop体系架构生态圈主要包含common,avro,mapreduce,hdfs,pig,hive(数据仓库),hbase,zookeeper,oozie(任务调度),sqoop(数据转移hive ↔ mysql)等组件

hadoop核心: hdfs(分布式文件系统)+ mapreduce (计算)+yarn(运算资源调度系统,管理硬件资源,内存/cpu等)。

HDFS架构

hdfs中的一些常见名词

block:一个文件分块,默认64M。当写入一个文件到 HDFS 时,它被切分成数据块,块大小是由配置文件 hdfs-default.xml 中的参数 dfs.blocksize (自 hadoop-2.2 版本后,默认值为 134217728字节即 128M,可以在 hdfs-site.xml 文件中改变覆盖其值。

namenode:保存整个文件系统的目录信息,文件信息以及文件相应的分块信息。(单点,提供服务的namenode只有一个)

datanode:用于存储blocks(文件块)。

hdfs的HA策略:namenode一旦宕机,整个文件系统将无法工作,如果namenode中的数据丢失,整个文件系统也就丢失了,从2.x开始,hdfs支持namenode的active-atandy模式(主从)。

在hdfs上的文件存储 

dbossdat1001.txt   600G

同一个文件快在不同节点中有多个副本,当某个节点的数据失效时,可以从另外的节点获取到文件的内容,当数据失效时,副本有效个数会减少,hadoop可以自动侦测到这一点,从有效的副本复制,自动恢复到正常的副本个数。

hdfs中的namenode和datanode

如上图所示,在hdfs中,分为两个部分:namenode和datanode,其中那么node只有一个节点,datanode则有多个节点。但从hadoop2.0版本之后开始,namenode有主从两个节点防止节点挂掉。

hdfs总的架构图


mapreduce

mapreduce编程模型

总图中可以看到,mapreduce是将大任务分割成若干的小任务,然后在汇总得出结果。

相关文章

  • 初认hadoop

    什么是hadoop? hadoop = teh hadoop projects hadoop体系架构生态圈主要包含...

  • 初认RAC

    ReactiveCocoa的核心: 信号,没错就是信号,发了信号要干嘛干嘛,讲白了就是一个事件流; 那么我们来把这...

  • 初认Git

    以前总是在集成开发环境或者客户端懵懵懂懂的使用着git,周末自己进一步学习了git执行原理以及命令行操作,感觉很有...

  • 初认gulp

    为什么是Gulp? 类似Gulp的工具,我们通常称之为构建工具。如今最流行的两个构建工具是Gulp和Grunt。已...

  • Dubbo 初认

    Dubbo市面上很火的分布式服务治理框架,我就我自己的学习做一笔记。首先我们要知道Dubbo产生的背景,当然是传统...

  • 初认闭包

    写在最前:和其他大多数高级编程语言一样,JavaScript也采用词法作用域。 为了实现词法作用域,JavaScr...

  • 初认机器学习

    对“机器学习”有些兴趣,我今天特意向朋友请教了“机器学习”的知识。 1.机器学习(Machine Learning...

  • Angular 依赖注入 初认

    服务与依赖注入 服务是什么概念?可以简单地认为它是一个功能模块,重要在于它是单例对象,并且可以注入到其他的地方使用...

  • 数据之始--初窥Hadoop

    天下熙熙,皆为利来,天下攘攘,皆为利往....趁着大数据的火热,本人也开始了数据之路,以此记录学习的历程,希望能大...

  • 初识简书

    初入简书 识认朋友 简述人生 书我心声

网友评论

      本文标题:初认hadoop

      本文链接:https://www.haomeiwen.com/subject/xnxeuxtx.html