美文网首页
HADOOP大数据技术栈简介

HADOOP大数据技术栈简介

作者: 奋斗的韭菜汪 | 来源:发表于2022-09-08 13:04 被阅读0次

    一、大数据技术图谱

    大数据.jpg
    Hadoop

    Hadoop狭义指Apacha的一款软件,广义指的是Hadoop大数据生态圈。Hadoop三大组件:HDFS、YARN、MapReduce。
    Hadoop是一个生态圈,类似于spring


    hadoop ecosystem

    1、Hadoop发行版本

    • 开源社区版本
    • 商业发行版本
      2、Hadoop架构变迁


      Hadoop从1.0到2.0版本架构变化
      Hadoop从2.0到3.0优化的内容
    HDFS

    分布式文件存储系统,处在生态圈的底层与核心地位

    YARN

    分布式通用的集群资源管理系统和任务调度平台,支撑各种计算引擎运行,保证了Hadoop的地位。

    MapReduce

    分布式计算引擎;由于自身涉及到模型所产生的弊端,导致企业一线几乎不再直接使用MapReduce进行编程处理,但是很多软件的底层依然在使用MapReduce引擎来处理数据。

    Hadoop的优点
    Hadoop优点
    大数据5V特征
    大数据5V特征
    Hadoop集群
    • Hadoop集群包括两个集群:HDFS集群、YARN集群
    • 两个集群逻辑上分离、通常物理上在一起
    • 两个集群都是标准的主从架构集群
    image.png

    最简单的一个Hadoop集群架构


    image.png

    MapReduce是一个计算框架、代码层面的组件,没有集群之说。

    Hadoop环境搭建相关配置文件
    image.png
    NameNode format(格式化操作)
    • 首次启动HDFS时,必须对其进行格式化操作
    • format本质上是初始化工作,进行HDFS清理和准备工作,
    • 命令: hdfs namenode -format
      注意:只有首次启动HDFS时,可对其进行格式化操作,之后format回导致数据丢失,不允许这类操作

    Spark计算引擎

    Spark是一款比MapReduce更优秀的计算引擎,

    主要功能特点:

    Spark SQL:可以通过写SQL的方式应用计算引擎
    Spark Streaming:流式计算,实时计算,要求低延迟的场景(监控大屏、信贷资质审核,搜索推荐等)
    MLlib(machine learning):机器学习
    GraphX:图处理

    Reference:

    Spark官网
    Hadoop官网
    地球人能看懂的Hadoop

    相关文章

      网友评论

          本文标题:HADOOP大数据技术栈简介

          本文链接:https://www.haomeiwen.com/subject/rxannrtx.html