美文网首页
Hadoop学习笔记20200421

Hadoop学习笔记20200421

作者: 70fa0b237415 | 来源:发表于2020-04-21 23:19 被阅读0次

之前学习Linux也是为了后面学习大数据分析,现在已经学了20天的Linux教程,对Linux基础有了基本了解,打算先暂停Linux后续教程的学习,开始Hadoop和Hive的学习,希望更快的入门大数据分析。
Hadoop是什么

随着数据量越来越大,我们将面临数据的存储问题、计算问题。

Hadoop是一个开源的分布式系统基础框架,可编写和运行分布式应用处理大规模数据,是专为离线和大规模数据分析而设计的。

可以将Hadoop理解为一个操作系统。

Hadoop生态系统

hadoop:分布式系统框架

hive:数据仓库

mahout:算法库

storm:分布式实时计算框架

hbase:分布式实时列式存储数据库

Hadoop架构和组件

Hadoop1.x 包含MapReduce和HDFS

Hadoop2.x 包含MapReduce、others、YARN和HDFS

HDFS:分布式文件系统

YARN:资源调度器

MapReduce:分布式计算框架

分布式

集群式相当于很多人在一起干相同的活,一起完成工作。

分布式相当于很多人在一起干不同的活,互相配合完成工作。

什么是文件系统

文件系统是操作系统用于明确存储设备(如磁盘)或分区上的文件的方法和数据结构,也就是存储设备上组织文件的方法。

Windows:NTFS

Linux:EXT3

Hadoop:hdfs

相关文章

网友评论

      本文标题:Hadoop学习笔记20200421

      本文链接:https://www.haomeiwen.com/subject/yenmihtx.html