美文网首页
Hadoop的介绍

Hadoop的介绍

作者: 做个合格的大厂程序员 | 来源:发表于2020-06-13 21:42 被阅读0次
  1. Hadoop最早起源于Nutch。Nutch的设计目标是构建一个大型的全网搜索引擎,包括网页 抓取、索引、查询等功能,但随着抓取网页数量的增加,遇到了严重的可扩展性问题—如何解决数十亿网页的存储和索引问题。
  2. 2003年、2004年谷歌发表的两篇论文为该问题提供了可行的解决方案。
  3. Nutch的开发人员完成了相应的开源实现HDFS和MAPREDUCE,并从Nutch中剥离成为独 立项目HADOOP,到2008年1月,HADOOP成为Apache顶级项目.

狭义上来说,hadoop就是单独指代hadoop这个软件

  • HDFS :分布式文件系统
  • MapReduce : 分布式计算系统
  • Yarn:分布式样集群资源管理

广义上来说,hadoop指代大数据的一个生态圈,包括很多其他的软件

image

hadoop的架构模型

1.x的版本架构模型介绍

image

文件系统核心模块

NameNode:集群当中的主节点,管理元数据(文件的大小,文件的位置,文件的权限),主要 用于管理集群当中的各种数据

SecondaryNameNode:主要能用于hadoop当中元数据信息的辅助管理

DataNode:集群当中的从节点,主要用于存储集群当中的各种数据

数据计算核心模块:

JobTracker:接收用户的计算请求任务,并分配任务给从节点

TaskTracker:负责执行主节点JobTracker分配的任务

2.x的版本架构模型介绍

第一种:NameNode与ResourceManager单节点架构模型

image

文件系统核心模块:

NameNode:集群当中的主节点,主要用于管理集群当中的各种数据

SecondaryNameNode:主要能用于hadoop当中元数据信息的辅助管理

DataNode:集群当中的从节点,主要用于存储集群当中的各种数据

数据计算核心模块:

ResourceManager:接收用户的计算请求任务,并负责集群的资源分配

NodeManager:负责执行主节点APPmaster分配的任务

第二种:NameNode单节点与ResourceManager高可用架构模型

image

文件系统核心模块

NameNode:集群当中的主节点,主要用于管理集群当中的各种数据

secondaryNameNode:主要能用于hadoop当中元数据信息的辅助管理

DataNode:集群当中的从节点,主要用于存储集群当中的各种数据

数据计算核心模块

ResourceManager:接收用户的计算请求任务,并负责集群的资源分配,以及计算任务的划 分,通过zookeeper实现ResourceManager的高可用

NodeManager:负责执行主节点ResourceManager分配的任务

第三种:NameNode高可用与ResourceManager单节点架构模型

image

文件系统核心模块

NameNode:集群当中的主节点,主要用于管理集群当中的各种数据,其中nameNode可以有 两个,形成高可用状态

DataNode:集群当中的从节点,主要用于存储集群当中的各种数据

JournalNode:文件系统元数据信息管理

数据计算核心模块

ResourceManager:接收用户的计算请求任务,并负责集群的资源分配,以及计算任务的划分

NodeManager:负责执行主节点ResourceManager分配的任务

第四种:NameNode与ResourceManager高可用架构模型

image

文件系统核心模块

NameNode:集群当中的主节点,主要用于管理集群当中的各种数据,一般都是使用两个,实 现HA高可用

JournalNode:元数据信息管理进程,一般都是奇数个

DataNode:从节点,用于数据的存储 数据计算核心模块:

ResourceManager:Yarn平台的主节点,主要用于接收各种任务,通过两个,构建成高可用

NodeManager:Yarn平台的从节点,主要用于处理ResourceManager分配的任务

相关文章

  • HADOOP入门

    1. HADOOP****背景介绍 ** 1.1 ****什么是HADOOP** HADOOP是apache旗下的...

  • 《十小时入门大数据》学习笔记之初识Hadoop

    笔记内容概括 Hadoop概述1.1 Hadoop名字的由来1.2 Hadoop介绍1.3 Hadoop能做什么 ...

  • Hadoop学习-安装

    一、hadoop介绍及其环境介绍 1.1 Hadoop简介 Hadoop是Apache软件基金会旗下的一个开源分布...

  • Hadoop的介绍

    Hadoop最早起源于Nutch。Nutch的设计目标是构建一个大型的全网搜索引擎,包括网页 抓取、索引、查询等功...

  • hadoop介绍

    https://www.cnblogs.com/wxisme/p/6270860.html https://www...

  • hadoop介绍

    以下内容是我的学习笔记,网络课程的笔记。出处 Hadoop实现了一个分布式文件系统(Hadoop Distribu...

  • Hadoop介绍

    用途:数据挖掘、日志分析、商务智能、搜索引擎..... 官网介绍:The Apache™ Hadoop® proj...

  • Hadoop 介绍

    1、NameNode介绍 Namenode 管理着文件系统的Namespace。它维护着文件系统树(filesys...

  • hadoop介绍

    可大可小 使用大数据 hadoop生态圈或框架 平台 高并发 ==多线程 集群 == 分布式 多进程 把...

  • Hadoop介绍

    Overview Hadoop是一个由Apache基金会所开发的分布式系统基础架构。 主要解决,海量数据的存储和海...

网友评论

      本文标题:Hadoop的介绍

      本文链接:https://www.haomeiwen.com/subject/kraztktx.html