一、大数据技术图谱
大数据.jpgHadoop
Hadoop狭义指Apacha的一款软件,广义指的是Hadoop大数据生态圈。Hadoop三大组件:HDFS、YARN、MapReduce。
Hadoop是一个生态圈,类似于spring
hadoop ecosystem
1、Hadoop发行版本
- 开源社区版本
-
商业发行版本
2、Hadoop架构变迁
Hadoop从1.0到2.0版本架构变化
Hadoop从2.0到3.0优化的内容
HDFS
分布式文件存储系统,处在生态圈的底层与核心地位
YARN
分布式通用的集群资源管理系统和任务调度平台,支撑各种计算引擎运行,保证了Hadoop的地位。
MapReduce
分布式计算引擎;由于自身涉及到模型所产生的弊端,导致企业一线几乎不再直接使用MapReduce进行编程处理,但是很多软件的底层依然在使用MapReduce引擎来处理数据。
Hadoop的优点
Hadoop优点大数据5V特征
大数据5V特征Hadoop集群
- Hadoop集群包括两个集群:HDFS集群、YARN集群
- 两个集群逻辑上分离、通常物理上在一起
- 两个集群都是标准的主从架构集群
最简单的一个Hadoop集群架构
image.png
MapReduce是一个计算框架、代码层面的组件,没有集群之说。
Hadoop环境搭建相关配置文件
image.pngNameNode format(格式化操作)
- 首次启动HDFS时,必须对其进行格式化操作
- format本质上是初始化工作,进行HDFS清理和准备工作,
- 命令: hdfs namenode -format
注意:只有首次启动HDFS时,可对其进行格式化操作,之后format回导致数据丢失,不允许这类操作
Spark计算引擎
Spark是一款比MapReduce更优秀的计算引擎,
主要功能特点:
Spark SQL:可以通过写SQL的方式应用计算引擎
Spark Streaming:流式计算,实时计算,要求低延迟的场景(监控大屏、信贷资质审核,搜索推荐等)
MLlib(machine learning):机器学习
GraphX:图处理
网友评论