HADOOP大数据技术栈简介

作者: 奋斗的韭菜汪 | 来源:发表于2022-09-08 13:04 被阅读0次

一、大数据技术图谱

大数据.jpg

Hadoop

Hadoop狭义指Apacha的一款软件，广义指的是Hadoop大数据生态圈。Hadoop三大组件：HDFS、YARN、MapReduce。
Hadoop是一个生态圈，类似于spring

hadoop ecosystem

1、Hadoop发行版本

开源社区版本
商业发行版本
2、Hadoop架构变迁

Hadoop从1.0到2.0版本架构变化
Hadoop从2.0到3.0优化的内容

HDFS

分布式文件存储系统，处在生态圈的底层与核心地位

YARN

分布式通用的集群资源管理系统和任务调度平台，支撑各种计算引擎运行，保证了Hadoop的地位。

MapReduce

分布式计算引擎；由于自身涉及到模型所产生的弊端，导致企业一线几乎不再直接使用MapReduce进行编程处理，但是很多软件的底层依然在使用MapReduce引擎来处理数据。

Hadoop的优点

Hadoop优点

大数据5V特征

Hadoop集群

Hadoop集群包括两个集群：HDFS集群、YARN集群
两个集群逻辑上分离、通常物理上在一起
两个集群都是标准的主从架构集群

image.png

最简单的一个Hadoop集群架构

image.png

MapReduce是一个计算框架、代码层面的组件，没有集群之说。

Hadoop环境搭建相关配置文件

image.png

NameNode format（格式化操作）

首次启动HDFS时，必须对其进行格式化操作
format本质上是初始化工作，进行HDFS清理和准备工作，
命令： hdfs namenode -format
注意：只有首次启动HDFS时，可对其进行格式化操作，之后format回导致数据丢失，不允许这类操作

Spark计算引擎

Spark是一款比MapReduce更优秀的计算引擎，

主要功能特点：

Spark SQL:可以通过写SQL的方式应用计算引擎
Spark Streaming:流式计算，实时计算，要求低延迟的场景（监控大屏、信贷资质审核，搜索推荐等）
MLlib（machine learning）:机器学习
GraphX：图处理

Reference:

Spark官网
 Hadoop官网
 地球人能看懂的Hadoop

网友评论

本文标题：HADOOP大数据技术栈简介

本文链接：https://www.haomeiwen.com/subject/rxannrtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

HADOOP大数据技术栈简介

一、大数据技术图谱

Hadoop

HDFS

YARN

MapReduce

Hadoop的优点

大数据5V特征

Hadoop集群

Hadoop环境搭建相关配置文件

NameNode format（格式化操作）

Spark计算引擎

主要功能特点：

Reference:

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读