美文网首页
大数据Hadoop版本介绍

大数据Hadoop版本介绍

作者: LiJiaSi | 来源:发表于2021-04-30 11:05 被阅读0次

你知道大数据Hadoop版本介绍,1.0版本和2.0对比有哪些缺点?

Hadoop发行版本分为开源社区版和商业版,社区版是指由Apache软件基金会维护的版本,是官方维护的版本体系。商业版Hadoop是指由第三方商业公司在社区版Hadoop基础上进行了一些修改、整合以及各个服务组件兼容性测试而发行的版本,例如比较著名的有Cloudera公司的CDH版本。

为了方便学习,本书采用开源社区版,而Hadoop自诞生以来,主要分为Hadoop1、Hadoop2、Hadoop3三个系列的多个版本。由于目前市场上最主流的是Hadoop2.x版本,因此,本书只针对Hadoop2.x版本进行相关介绍。

Hadoop2.x版本指的是第2代Hadoop,它是从Hadoop1.x发展而来的,并且相对于Hadoop1.x来说,有很多改进。下面我们从Hadoop1.x到Hadoop2.x发展的角度,对两版本进行讲解,如图1所示。

图1 Hadoop版本内核演变

通过图1可以看出,Hadoop1.0内核主要由分布式存储系统HDFS和分布式计算框架MapReduce两个系统组成,而Hadoop2.x版本主要新增了资源管理框架Yarn以及其他工作机制的改变。

在Hadoop1.x版本中,HDFS与MapReduce结构如图2和3所示。

图2 HDFS组成结构 图3 MapReduce组成结构

从图3可以看出MapReduce由一个JobTracker和多个TaskTracker组成,其中,MapReduce的主节点JobTracker只有一个,从节点TaskTracker有很多个,JobTracker与TaskTracker在MapReduce中的角色就像是项目经理与开发人员的关系,而JobTracker负责接收用户提交的计算任务、将计算任务分配给TaskTracker执行、跟踪,JobTracker同时监控TaskTracker的任务执行状况等。当然,TaskTracker只负责执行JobTracker分配的计算任务,正是由于这种机制,Hadoop1.x架构中的HDFS和MapReduce存在以下缺陷:

(1)HDFS中的NameNode、SecondaryNode单点故障,风险是比较大的。其次,NameNode内存受限不好扩展,因为Hadoop1.x版本中的HDFS只有一个NameNode,并且要管理所有的DataNode。

(2)MapReduce中的JobTracker职责过多,访问压力太大,会影响系统稳定。除此之外,MapReduce难以支持除自身以外的框架,扩展性较低的不足。

Hadoop2.x版本为克服Hadoop1.x中的不足,对其架构进行了以下改进:

(1)Hadoop2.x可以同时启动多个NameNode,其中一个处于工作(Active)状态,另一个处于随时待命(Standby)状态,这种机制被称为Hadoop HA(Hadoop高可用),这样当一个NameNode所在的服务器宕机时,可以在数据不丢失的情况下,自动切换到另一个NameNode持续提供服务。

(2)Hadoop2.x将JobTracker中的资源管理和作业控制分开,分别由ResourceManager(负责所有应用程序的资源分配)和ApplicationMaster(负责管理一个应用程序)实现,即引入了资源管理框架Yarn,它是一个通用的资源管理框架,可以为各类应用程序进行资源管理和调度,不仅限于MapReduce一种框架,也可以为其他框架使用,如Tez、Spark、Storm,这种设计不仅能够增强不同计算模型和各种应用之间的交互,使集群资源得到高效利用,而且能更好地与企业中已经存在的计算结构集成在一起。

(3)Hadoop2.x中的MapReduce是运行在Yarn上的离线处理框架,它的运行环境不再由JobTracker和TaskTracker等服务组成,而是变成通用资源管理Yarn和作业控制进程ApplicationMaster,从而使MapReduce在速度上和可用性上都有很大的提高。

想学习大数据的小伙伴可以学习这套教程哦!

大数据教程Hadoop

相关文章

  • 大数据Hadoop版本介绍

    你知道大数据Hadoop版本介绍,1.0版本和2.0对比有哪些缺点? Hadoop发行版本分为开源社区版和商业版,...

  • Hadoop生态系统概述

    首先,对hadoop版本进行介绍,hadoop1.0版本是较旧的版本,hadoop2.0是现在较为流行的版本,其引...

  • 大数据开发之Hive优化篇6-Hive on spark

    备注:Hive 版本 2.1.1 一.Hive on Spark介绍 Hive是基于Hadoop平台的数据仓库,最...

  • 玩转大数据计算之Hadoop

    Hadoop版本:我们采用目前主流的版本:2.7.3 Hadoop介绍:目前最流行的分布式计算平台。 Hadoop...

  • hbase 1.4.13 安装部署

    认识HBase HBase介绍 HBase = Hadoop database,Hadoop数据库开源数据库官网:...

  • Hadoop学习笔记

    Hadoop——大数据框架,有多种语言版本,包括python,JAVA等 为什么需要Hadoop? 数据量大,计算...

  • 在Mac下安装Hadoop的坑

    Hadoop介绍 Hadoop是Apache基金会下的项目,它能够处理非常大的数据集在分布式计算环境,它可以运行在...

  • Mac下安装Hadoop(转)

    Hadoop介绍 Hadoop是Apache基金会下的项目,它能够处理非常大的数据集在分布式计算环境,它可以运行在...

  • 一. 介绍

    一、hadoop介绍 hadoop版本: cdh5.7.0 二、分布式文件系统HDFS 二 HDFS架构 Mast...

  • 0基础入门大数据开发需要学习什么内容?Hadoop体系

    上文介绍了大数据开发学习需要的基础知识,接下来继续介绍大数据技术学习的重点之一:Hadoop。 Hadoop技术体...

网友评论

      本文标题:大数据Hadoop版本介绍

      本文链接:https://www.haomeiwen.com/subject/erlnrltx.html