之前学习Linux也是为了后面学习大数据分析,现在已经学了20天的Linux教程,对Linux基础有了基本了解,打算先暂停Linux后续教程的学习,开始Hadoop和Hive的学习,希望更快的入门大数据分析。
Hadoop是什么
随着数据量越来越大,我们将面临数据的存储问题、计算问题。
Hadoop是一个开源的分布式系统基础框架,可编写和运行分布式应用处理大规模数据,是专为离线和大规模数据分析而设计的。
可以将Hadoop理解为一个操作系统。
Hadoop生态系统
hadoop:分布式系统框架
hive:数据仓库
mahout:算法库
storm:分布式实时计算框架
hbase:分布式实时列式存储数据库
Hadoop架构和组件
Hadoop1.x 包含MapReduce和HDFS
Hadoop2.x 包含MapReduce、others、YARN和HDFS
HDFS:分布式文件系统
YARN:资源调度器
MapReduce:分布式计算框架
分布式
集群式相当于很多人在一起干相同的活,一起完成工作。
分布式相当于很多人在一起干不同的活,互相配合完成工作。
什么是文件系统
文件系统是操作系统用于明确存储设备(如磁盘)或分区上的文件的方法和数据结构,也就是存储设备上组织文件的方法。
Windows:NTFS
Linux:EXT3
Hadoop:hdfs
网友评论