Hadoop生态圈

作者: 上官伟斌 | 来源:发表于2019-01-15 23:11 被阅读0次

    狭义hadoop: 一个适合大数据分布式存储和分布式计算的平台,包含HDFS,MapReduce,YARN
    广义hadoop: 以hadoop为基础的生态圈,包含HDFS、MapReduce、YARN、HBase、ZooKeeper、Hive、Pig、Sqoop、Flume、Oozie、Mahout等
    HDFS: 分布式文件 系统
    MapReduce: 分布式、并行处理的编程模型
    YARN:负责整个系统 的资源管理 和调度
    Hbase: 建立在HDFS上的面向列的数据库,用于快速读写大量数据
    ZooKeeper: 分布式协调服务框架
    Hive:将SQL语句翻译成MapReduce作业,并提交到Hadoop集群上支行
    Pig:用于并行计算的高级数据语言和执行框架,有一套和SQL类型的执行语句,处理的对象是HDFS上的文件
    Sqoop: 用于在关系数据库、数据仓库(Hive)和Hadoop之间转移数据的框架
    Flume:基于流式的分布式、高可靠、高可用的服务
    Oozie: 工作流调度引擎
    Mahout: 机器学习和数据挖掘库

    相关文章

      网友评论

        本文标题:Hadoop生态圈

        本文链接:https://www.haomeiwen.com/subject/ygnudqtx.html