Hadoop学习简介

作者: 失心菜 | 来源:发表于2019-06-24 21:36 被阅读1次

          Hadoop是一个由Apache基金会所开发的分布式系统基础架构,实现了一个分布式文件系统。

          其凭借着低成本、高可靠、高扩展、高有效、高容错等特性成为最流行的大数据分析系统。要入门大数据,最好的办法就是理清Hadoop的生态系统


    入门大数据,重点知识清单:

    hadoop项目主要包括以下四个模块:

    Hadoop学习简介

    1.  hadoop Common 为其它hadoop模块提供基础设施

    2.  hadoop HDFS 一个可靠、高吞吐量的分布式文件系统

    3.  hadoop MapReduce 一个分布式的离线并行计算框架

    4.  hadoop YARN 任务调度与资源管理

    hadoop生态系统:

    Hadoop学习简介

    Hadoop:分布式存储、分布式计算、资源调度与任务管理

    HDFS、MapReduce、yarn、common

    Nutch开源的搜索引擎

    Lucene:索引检索工具包;Solr索引服务器

    HBase/Cassandra:基于谷歌的BigTable开源的列式存储的非关系型数据库

    Hive:基于SQL的分布式计算引擎,同时是一个数据仓库

            Pig:基于Pig Latin脚本的计算引擎

    Thrift/Avro:RPC框架,用于网络通信

    BigTop:项目测试、打包、部署

    Oozie/Azakban:大数据的工作流框架

    Chukwa/Scribe/Flume:数据收集框架

    Whirr:部署为云服务的类库

    Sqoop:数据迁移工具

    Zookeeper:分布式协调服务框架

    HAMA:图计算框架

    Mahout:机器学习框架


            小编会持续更新,希望能和各位一起学习,有什么精彩评论,尽管发言。

    相关文章

      网友评论

        本文标题:Hadoop学习简介

        本文链接:https://www.haomeiwen.com/subject/qqyaqctx.html