美文网首页
初识Hadoop

初识Hadoop

作者: 神豪VS勇士赢 | 来源:发表于2020-04-30 00:39 被阅读0次

1.什么是Hadoop

官网如下:
http://hadoop.apache.org
估计你们也不会点进去看 。。。

简单的说 :
Hadoop就是开源的分布式存储+分布式计算平台。

2.Hadoop 能帮我们做什么?
1)搭建大型数据仓库,PB级别数据的存储、处理、分析、统计等业务
2)日志分析
3)商业智能
4)数据挖掘

3.Hadoop 核心组件

HDFS 分布式文件系统
1)将文件切分成指定的大小数据块并以多副本的存储在多个机器上
2)数据切分,多副本,容错等操作对用户是透明的 用户仅仅关心文件上

NameNode 和 DataNode 概念我们放后面。
这里放出来这张图片就为了展示出来 文件分布式存储的一个概图 ,
part0文件 分为 1 和 3 两个部分编号 并且 这两个部分都在 两个节点有备份数据 。 就算挂掉一个节点 另一个节点也会有本分数据 。


image.png

YARN 资源调度
1)负责整个集群资源的管理和调度
2)YARN 的特点: 拓展性,容错性,多框架资源统一调度
Hadoop 1.x 版本 仅仅支持执行MapReduce
但是 2.x版本后支持 YARN 大大拓展了执行多框架的调度 如下图:


image.png

MapReduce 分布式计算框架
1)拓展性,容错性,海量数量离线处理

mapReduce 最简单的wordCount 流程图:


image.png
  1. Hadoop的优势:
    1)存储: 数据多块,多副本。
    2)计算:重新调度作业计算。
    3)拓展:可以横向拓展机器,解决资源不够等问题。一个集群甚至可以支持上万个节点。
    4)存储在廉价的机器上 节省服务器花费
    5)有成熟的生态圈

5.狭义的Hadoop Vs 广义的Hadoop

image.png

6.Hadoop 的生态系统:


image.png

7.Hadoop 生态系统的特点:
1)开源 社区活跃
2)囊括了大数据处理的方方面面
3)成熟的生态圈

7.Hadoop 常用的发行版和选型


image.png

推荐选择使用CDH的版本进行安装
http://archive.cloudera.com/cdh5/

相关文章

  • 初识Hadoop

    三大核心组件 1. HDFS 概念 是一个分布式文件系统 源于谷歌GFS论文的开源实现 设计目标 非常巨大的分布式...

  • Hadoop 初识

    Hadoop的前世今生 Google大数据技术 MapReduce BigTable GFS 革命性的变化: 成本...

  • 初识Hadoop

    Hadoop的学习有一段时间了,把本地的笔记整理之后写入简书,为了长久的保存,也为了与志同道合者共同学习。 Had...

  • 初识Hadoop

    Hadoop 概述 Hadoop 是开源的,分布式存储和分布式计算平台。我们可以通过它搭建大型数据仓库,PB级数据...

  • 初识Hadoop

    目录## Hadoop背景介绍 Hadoop生态圈以及各组成部分的简介 Hadoop案例感性认识 1、Hadoop...

  • 初识Hadoop

    公司领导让部门内部结成小组,研究一下Hadoop,并说哪个组做得最好,年终奖有加成。无论奖励与否,多学一点总是好的...

  • 初识Hadoop

    大数据简介 定义 大数据是指无法在一定时间范围内用常规软件工具进行处理和分析的数据集合,需要新处理模式才能具有更强...

  • 初识Hadoop

    1.什么是Hadoop 官网如下:http://hadoop.apache.org估计你们也不会点进去看 。。。 ...

  • 初识hadoop

    hadoop由hdfs、mapreduce、yarn三部分组成 hdfs:分布式文件系统 扩展性 容错性 海量数据...

  • 初识hadoop

    Hadoop介绍 Hadoop是Apache旗下的一个用java语言实现的开源软件框架,是一个存储和计算大规模数据...

网友评论

      本文标题:初识Hadoop

      本文链接:https://www.haomeiwen.com/subject/gbzowhtx.html