美文网首页
Hadoop学习笔记20200421

Hadoop学习笔记20200421

作者: 70fa0b237415 | 来源:发表于2020-04-21 23:19 被阅读0次

    之前学习Linux也是为了后面学习大数据分析,现在已经学了20天的Linux教程,对Linux基础有了基本了解,打算先暂停Linux后续教程的学习,开始Hadoop和Hive的学习,希望更快的入门大数据分析。
    Hadoop是什么

    随着数据量越来越大,我们将面临数据的存储问题、计算问题。

    Hadoop是一个开源的分布式系统基础框架,可编写和运行分布式应用处理大规模数据,是专为离线和大规模数据分析而设计的。

    可以将Hadoop理解为一个操作系统。

    Hadoop生态系统

    hadoop:分布式系统框架

    hive:数据仓库

    mahout:算法库

    storm:分布式实时计算框架

    hbase:分布式实时列式存储数据库

    Hadoop架构和组件

    Hadoop1.x 包含MapReduce和HDFS

    Hadoop2.x 包含MapReduce、others、YARN和HDFS

    HDFS:分布式文件系统

    YARN:资源调度器

    MapReduce:分布式计算框架

    分布式

    集群式相当于很多人在一起干相同的活,一起完成工作。

    分布式相当于很多人在一起干不同的活,互相配合完成工作。

    什么是文件系统

    文件系统是操作系统用于明确存储设备(如磁盘)或分区上的文件的方法和数据结构,也就是存储设备上组织文件的方法。

    Windows:NTFS

    Linux:EXT3

    Hadoop:hdfs

    相关文章

      网友评论

          本文标题:Hadoop学习笔记20200421

          本文链接:https://www.haomeiwen.com/subject/yenmihtx.html