美文网首页
Hadoop基本原理

Hadoop基本原理

作者: 星中有数 | 来源:发表于2020-03-31 17:35 被阅读0次

1、Hadoop是什么

Hadoop是一个开源的分布式计算平台。

HDFS 和MapReduce是Hadoop的两大核心,整个Hadoop的体系结构主要是通过 HDFS来实现对分布式存储的底层支持的,并通过MapReduce来实现对分布式并行任务处理的程序支持。

hadoop项目结构图(引用hadoop实战)

2、为什么要用Hadoop?

1)高效地存储和管理数据

2)处理问题时,采用分布式存储方式(HDFS:hadoop distribution file system),提高了读写速度,并扩大了存储容量.

3)还采用存储冗余数据的方式保证数据的安全性。

3、Hadoop工作原理?

HDFS:采用主从结构模型。

一个HDFS集群有一个NameNode和若干个DataNode组成:其中NameNode为主,管理文件系统命名和文件的访问操作,DataNode为从,管理存储的数据。

HDFS结构图 (引用hadoop实战)

MapReduce:一种并行编程模式,使用者可以基于该模式情动写出分布式并行程序。

由一个单独运行的主节点上的JobTracker和运行在每个集群从节点上的TaskTracker共同组成。主节点负责调度构成一个作业的所有任务,这些任务分布在不同的从节点上,由主节点监控任务的执行情况,并重新执行之前失败的任务;从节点负责执行主节点指派的任务。

MapReduce处理流程 (引用hadoop实战)

4、Hadoop的数据管理?

包含分布式文件系统HDFS, 分布式数据库Hbase和数据仓库工具Hive的数据管理。

HDFS对数据的管理:

1)文件写入:client向NameNode发起文件写入请求---->NameNode根据文件大小和配置,返回DataNode信息---->Client把文件划分为多个Block,根据DataNode地址信息,按顺序写入到DataNode;

2)文件读取:client向NameNode发起文件读取请求---->NameNode根据文件存储返回DataNode信息---->Client读取文件信息;

3)文件块(Block)复制:NameNode发现不符合复制要求的Block或者存在DataNode失效---->通知DataNode相互复制Block---->DataNode开始直接相互复制;

PS: HDFS一个文件块有3个备份,一个放在NameNode指定的DataNode上,一个放在与指定DataNode不在同一台机器的DataNode上,还有一个放在与指定DataNode在通以Rack的DataNode上。一方面可以解决通以Rack失败的情况,另一方面可以解决不同Rack之间的数据拷贝提升性能。

相关文章

  • hadoop学习大纲

    Hadoop集群环境搭建 Hadoop集群环境搭建 HDFS 图说HDFS基本原理hadoop的shell命令操作...

  • Hadoop课程大纲

    Hadoop集群环境搭建 Hadoop集群环境搭建 HDFS 图说HDFS基本原理hadoop的shell命令操作...

  • Hadoop课程大纲

    Hadoop集群环境搭建 Hadoop集群环境搭建 HDFS 图说HDFS基本原理hadoop的shell命令操作...

  • Hadoop 课程大纲

    Hadoop集群环境搭建 Hadoop集群环境搭建 HDFS 图说HDFS基本原理hadoop的shell命令操作...

  • Hadoop生态圈小贴士

    小贴士为你带来hadoop生态圈常用组件的基本原理,方便看官快速理解组件基本原理,构造hadoop生态圈的全貌。 ...

  • Python海量数据处理之_Hadoop(三)程序调用

    1. 说明  前两篇分别介绍了Hadoop的配置方法和基本原理,本篇将介绍如何让程序借助Hadoop调用服务...

  • Hadoop基本原理

    1、Hadoop是什么 Hadoop是一个开源的分布式计算平台。 HDFS 和MapReduce是Hadoop的两...

  • 企业级大数据平台

    一 前言 阅读本文前需要掌握的知识: Linux基本原理和命令 Hadoop生态系统(包括HDFS,Spark的原...

  • Hadoop入门—基本原理简介

    现在打算学习一些关于分布式,大数据,和hadoop的知识,创建一个笔记本,作为入门的笔记。 1. 安装hadoop...

  • Hive

    一、基本原理 Hive是基于Hadoop的一个数据仓库工具,可以将结构化数据文件映射成一张表,并提供类似SQL的查...

网友评论

      本文标题:Hadoop基本原理

      本文链接:https://www.haomeiwen.com/subject/qymwuhtx.html