美文网首页
概述之大数据组成

概述之大数据组成

作者: 硕硕_12 | 来源:发表于2019-05-08 12:23 被阅读0次

            大数据是目前很火的词语,在互联网公司,大数据有很多的相关岗位和title,下图是大数据部门的组织架构:

            haddop生态圈目前是比较经典,在Hadoop2.x系列里,Hadoop主要包括MapReduce Yarn HDFS和Common辅助工具。

            HDFS用于数据存储,主要包括NameNode、DataNode、SecondaryNameNode。NameNode主要存储储文件的元数据如文件名、文件目录结构、文件属性以及每个文件的块列表和块所在的DataNode等。DataNode主要在本地文件系统存储文件块数据以及块数据的校验和。SecondaryNameNode用来监控HDFS状态的辅助后台程序,每隔一段时间获取HDFS元数据的快照。

            Yarn用于资源调度,主要包括ResourceManager、NodeManager、ApplicationMaster和Container。ResourceManager主要处理客户端的请求,监控NodeManager,NodeManager主要管理单个节点的资源,处理来自ResourceManager和ApplicationMaster的命令,ApplicationMaster负责数据的切分、为应用程序申请资源并分配给内部的任务、负责任务的监控与容错。Container是Yarn资源的抽象,封装了某个节点上的多维资源。

            MapReduce将计算过程分为两个阶段:Map和Reduce,Map阶段并行处理输入数据,Reduce阶段对Map结果进行汇总。

        下图是Hadoop的技术生态体系:

    Sqoop 是一个开源工具,用于Hadoop hive和传统的数据库间进行数据传递,可以将关系型数据库例如MySQL Oracle中的数据导入到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。

    Flume 是Cloudera提供的分布式的海量日志采集聚合和传输的系统。

    Kafka是一种高吞吐量的分布式发布订阅消息系统

    Storm用于连续计算,对数据流做连续查询,在计算的时候将结果以流的形式输出给用户

    Spark是开源大数据内存计算框架

    Hbase是一个分布式的、面向列的开源数据库。

    Hive是基于Hadoop的数据仓库工具,将结构化的数据文件映射为一张数据库表,提供简单的SQL查询功能。可以将SQL转换为MapReduce任务进心运行。

    相关文章

      网友评论

          本文标题:概述之大数据组成

          本文链接:https://www.haomeiwen.com/subject/bixwqxtx.html