回顾——Hadoop简介

作者: 黑箭 | 来源:发表于2016-12-13 14:57 被阅读0次

(硕士读了一年多,除了论文就是论文,甚是枯燥,过些日子打算去找工作,所以借助此平台给自己一个复习的过程并把自己复习过程中做的笔记分享给大家。此回顾首先从Hadoop开始,接下来有可能会加入Spark算法机器学习,设计模式等。)

复习——HADOOP简介

一、大数据的基本特性:4V

1、Volume: M->G->T->P->E->Z->(容量)

2、Varity:文本、图片、视频音频…

3、Veracity:精确

4、Velocity:速度要求快、数据输入输出的速度

二、什么是Hadoop

1、Hadoop是一种开源的可靠的,可扩展的,大数据分布式计算框架。支持从一台到数以千台的机器,并且在每一台上面都支持本地计算和存储。支持很多操作系统版本,但是一般企业都会选择Linux,很少有企业会选择windows来做大数据。所以学习hadoop当然要掌握linux的相关技能。

2、包括

HDFS:Hadoop的分布式文件系统

MapReduce:Hadoop的离线并行计算模型

YARN:一种任务调度和资源管理框架(2.0版本以后)

3、Google三篇论文

Hadoop的设计思想来源于谷歌的三大论文,GFS、MapReduce、BigTable。分别对应hadoop的HDFS、MapReduce、Hbase

三、分布式文件系统

HDFS中主要包含两个节点,namenode和datanode。在2.0版本以前存在secondarynamenode,但是在使用zookeeper协助HDFS做HA之后就不再使用了。

Namenode:存储文件的元数据信息(fsimage)和对文件操作信息(edits)

Datanode:数据存储;文件存储以块的形式,默认128MB,文件不足128MB不会占满整个块;默认情况存储副本数为三个,分别为机器本、同机架、不同机架;定期向namenode发送报告。

四、YARN架构

YARN是一种资源管理与应用调度框架,在hadoop2.0以后被提出的,大数据的许多框架都能和其集成。

Resourcemanager:负责整个系统的资源管理,资源分配,协调

Nodemanager:负责单个任务管理,任务的本地运行。(通常每个datanode配备一个nodemanager以保证任务本地执行)

Hadoop1与Hadoop2架构对比

五、MapReduce

MapReduce是一种大数据并行计算模型,主要包括Map端、shuffle过程和Reduce端。其中map和reduce的输入输出都是以键值对的方式进行的。shuffle则包括分区,分组,排序等过程。最为经典的就是wordcount程序,号称大数据的hello world。

由于mapreduce只能处理离线数据,并且速度较为缓慢,所以现在此部分渐渐被spark所替换。

相关文章

  • 回顾——Hadoop简介

    (硕士读了一年多,除了论文就是论文,甚是枯燥,过些日子打算去找工作,所以借助此平台给自己一个复习的过程并把自己复习...

  • java大数据之hadoop

    一、Hadoop简介 1.1 Hadoop是什么 The Apache Hadoop project develo...

  • 大数据技术原理与应用:大数据处理架构Hadoop生态圈

    Hadoop生态圈 概述 Hadoop简介什么是Apache hadoop?Apache Hadoop项目是以可靠...

  • Hadoop简介

    什么是hadoop hadoop是apache下的一款开源分布式大数据处理框架,通过多台廉价机器搭建集群的方式 ,...

  • Hadoop简介

    Hadoop是一个Apache基金会所开发的分布式系统基础架构,具有高容错、高可靠性、高扩展性、高效、低成本等特点...

  • Hadoop简介

    从数据爆炸开始。。。 一、 第三次工业革命 第一次:18世纪60年代,手工工厂向机器大生产过渡,以蒸汽机的发明...

  • Hadoop简介

    Hadoop 介绍 Hadoop是Apache组织的一个分布式计算框架(java语言),其最核心的设计就是:HDF...

  • Hadoop简介

    Hadoop概述开源分布式计算平台,以HDFS、MapReduce为核心,为用户提供了系统底层细节透明的分布式基础...

  • hadoop简介

    Hadoop简介 *Hadoop 擅长处理一次写入,多次读出的数据 hadoop两大核心组件是 HDFS 和 ma...

  • Hadoop简介

    Hadoop产生的意义 随着信息社会的进步,信息数据的激增,海量数据的存储和分析成为难题,即使硬盘的存储容量不断提...

网友评论

    本文标题:回顾——Hadoop简介

    本文链接:https://www.haomeiwen.com/subject/ssqbmttx.html