Hadoop 生态

作者: 求知笔记 | 来源:发表于2021-02-27 08:24 被阅读0次

来源于百度百科
Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力进行高速运算和存储。同常是指一个更广泛的概念-Hadoop生态圈。

HDFS
分布式文件系统
YARN
YARN（Yet Another Resource Negotiator)，job调度和资源管理框架
MapReducer
分布式数据处理模型和执行环境（分布式计算）
ETL
ETL是将业务系统的数据经过抽取（Extract）、清洗转换（Transform）之后加载（Load）到数据仓库的过程，目的是将企业中的分散、零乱、标准不统一的数据整合到一起，为企业的决策提供分析依据。
Sqoop
一款开源工具，主要用在Hadoop、Hive与传统数据库（Mysql）间进行数据传递，可以将关系型数据库数据导入到Hadoop的HDFS中，也可以从HDFS中导入关系型数据库中；

Kafka
一种高吞吐量的分布式发布订阅消息系统；
HBase
一个建立在HDFS之上，面向列的针对性结构化数据的可伸缩、高可靠、高性能、分布式的动态数据库，保存的数据可以使用Mapreducer来处理，将数据存储和并行计算完美的结合在一起；
Storm
对数据流做连续查询，在计算时就将结果以流动形式输出给用户，用于“连续计算”；
Spark
一种基于内存的分布式计算框架，与Mapreducer不同的是Job中间输出结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法，内部提供了大量的库，如 Spark Sql、Spark Streaming等；
Fiilnk
一种基于内存的分布式计算框架，用于实时计算场景较多；
Oozie
一个管理hadoop job 的工作流程调动管理系统，用于协调多个MapReducer任务的执行；
Hive
基于Hadoop的一个数据仓库工具，定义了一种类似SQL的查询语言(HQL),将SQL转化为MapReduce任务在Hadoop上执行。通常用于离线分析。
Impala
用于处理存储在Hadoop集群中大量数据的MPP（大规模并行处理）SQL查询引擎，与Hive不同，不基于MapReducer算法。它实现了一个基于守护进程的分布式结构，负责在同一台机器上运行的查询执行所有方面，执行效率高于Hive。