概述之大数据组成

作者: 硕硕_12 | 来源:发表于2019-05-08 12:23 被阅读0次

概述之大数据组成
(二)大数据学习之大数据概述
Pinpoint源码解析（三）
Hadoop重要组成概述
数据库之表操作(DDL语句)和索引
机器学习1（特征工程）
mysql事务的知识点
Prometheus 笔记
java基础-day27-XML
二、ORACLE数据库体系结构

大数据是目前很火的词语，在互联网公司，大数据有很多的相关岗位和title，下图是大数据部门的组织架构：

haddop生态圈目前是比较经典，在Hadoop2.x系列里，Hadoop主要包括MapReduce Yarn HDFS和Common辅助工具。

HDFS用于数据存储，主要包括NameNode、DataNode、SecondaryNameNode。NameNode主要存储储文件的元数据如文件名、文件目录结构、文件属性以及每个文件的块列表和块所在的DataNode等。DataNode主要在本地文件系统存储文件块数据以及块数据的校验和。SecondaryNameNode用来监控HDFS状态的辅助后台程序，每隔一段时间获取HDFS元数据的快照。

Yarn用于资源调度，主要包括ResourceManager、NodeManager、ApplicationMaster和Container。ResourceManager主要处理客户端的请求，监控NodeManager，NodeManager主要管理单个节点的资源，处理来自ResourceManager和ApplicationMaster的命令，ApplicationMaster负责数据的切分、为应用程序申请资源并分配给内部的任务、负责任务的监控与容错。Container是Yarn资源的抽象，封装了某个节点上的多维资源。

MapReduce将计算过程分为两个阶段：Map和Reduce,Map阶段并行处理输入数据，Reduce阶段对Map结果进行汇总。

下图是Hadoop的技术生态体系：