20221119_大数据系列概述篇学习笔记.md
1概述
采集企业全域数据,然后存储起来,接着通过加工计算打通数据之间的关系,最后以API的形式对外提供数据服务进行使用。
数据采集、数据存储、数据计算(离线、实时)、数据分析(OLAP)、数据检索、任务调度、资源管理、平台搭建。

1.1数据采集技术框架
数据采集技术框架包括以几种。
Sqoop和Datax常用于关系型数据库离线数据采集,它们之间的细节区别见表2;
Flume、Logstash和FileBeat常用于日志数据实时监控采集,它们之间的细节区别见表1;
Cannal和Maxwell常用于关系型数据库实时数据采集,它们之间的细节区别见表3。
1.1.1离线
1.1.1.1关系型数据库
Sqoop、Datax
1.1.2实时
1.1.2.1日志
Flume、Logstash和FileBeat常用于日志数据实时监控采集。
1.1.2.2关系型数据库
Cannal、Maxwell
1.2数据存储技术框架
数据存储技术框架包括HDFS、HBase、Kudu、Kafka等。
HDFS它可以解决海量数据存储的问题,但是其最大的缺点是不支持单条数据的修改操作,因为它毕竟不是数据库。
HBase是一个基于HDFS的分布式NoSQL数据库。这意味着,HBase可以利用HDFS的海量数据存储能力,并支持修改操作。但HBase并不是关系型数据库,所以它无法支持传统的SQL语法。
Kudu是介于HDFS和HBase之间的技术组件,既支持数据修改,也支持基于SQL的数据分析功能;目前Kudu的定位比较尴尬,属于一个折中的方案,在实际工作中应用有限。
Kafka常用于海量数据的临时缓冲存储,对外提供高吞吐量的读写能力。
1.3分布式资源管理
1.3.1大数据领域
Yarn
1.3.2云计算领域
Kubernetes、
Mesos
1.4数据计算技术框架
因此,目前企业中离线计算主要使用Spark,实时计算主要使用Flink。
1.4.1离线
大数据中的离线数据计算引擎经过十几年的发展,到目前为止主要发生了3次大的变更。
- MapReduce可以称得上是大数据行业的第一代离线数据计算引擎,主要用于解决大规模数据集的分布式并行计算。MapReduce计算引擎的核心思想是,将计算逻辑抽象成Map和Reduce两个阶段进行处理。
- Tez计算引擎在大数据技术生态圈中的存在感较弱,实际工作中很少会单独使用Tez去开发计算程序。
- Spark最大的特点就是内存计算:任务执行阶段的中间结果全部被放在内存中,不需要读写磁盘,极大地提高了数据的计算性能。Spark提供了大量高阶函数(也可以称之为算子),可以实现各种复杂逻辑的迭代计算,非常适合应用在海量数据的快速且复杂计算需求中。
spark
1.4.2实时
- Storm主要用于实现实时数据分布式计算;
- Flink属于新一代实时数据分布式计算引擎,其计算性能和生态圈都优于Storm。
- Spark中的SparkStreaming组件也可以提供基于秒级别的实时数据分布式计算功能。
storm:小型且独立的实时项目、
SparkStreaming满足秒级需求、
Flink:高吞吐、低延迟
1.5数据分析引擎(OLAP)
OLAP(Online Analytical Processing)是在线分析处理,顾名思义就是OLAP是用于数据分析。
包括Hive、Impala、Kylin、Clickhouse、Druid、Drois等,它们的典型应用场景如图7所示。
1.5.1离线
Hive、Impala、Kylin
1.5.2实时
Druid、ClickHouse、Doris
1.6分布式任务调度
包括Azkaban、Ooize、DolphinScheduler等。它们适用于普通定时执行的例行化任务,以及包含复杂依赖关系的多级任务进行调度,支持分布式,保证调度系统的性能和稳定性,它们之间的区别见表7,它们之前的技术选型依据如图8所示。
Azkaban、Ooize、DolphinScheduler
1.7数据底层基础技术
大数据底层基础技术框架主要是指Zookeeper。Zookeepe主要提供常用的基础功能(例如:命名空间、配置服务等),大数据生态圈中的Hadoop(HA)、HBase、Kafka等技术组件的运行都会用到Zookeeper。
1.8海量全文检索
Lucene、Solr、Elasticsearch
1.9大数据集群安装管理框架
于是,国外一些厂商就对大数据中的组件进行了封装,提供了一体化的大数据平台,利用它可以快速安装大数据组件。目前业内最常见的是包括CDH、HDP、CDP、Ambari 等。
- HDP:全称是 Hortonworks Data Platform。它由 Hortonworks 公司基于 Apache Hadoop 进行了封装,借助于 Ambari 工具提供界面化安装和管理,并且集成了大数据中的常见组件, 可以提供一站式集群管理。HDP 属于开源版免费大数据平台,没有提供商业化服务;
- CDH:全称是 Cloudera Distribution Including Apache Hadoop。它由 Cloudera 公司基于 Apache Hadoop 进行了商业化,借助于 Cloudera Manager 工具提供界面化安装和管理,并且集成了大数据中的常见组件,可以提供一站式集群管理。CDH 属于商业化收费大 数据平台,默认可以试用 30 天。之后,如果想继续使用高级功能及商业化服务,则需要付费购买授权,如果只使用基础功能,则可以继续免费使用;
- CDP:Cloudera 公司在 2018 年 10 月份收购了 Hortonworks,之后推出了新一代的大数据平台产品 CDP(Cloudera Data Center)。CDP 的版本号延续了之前 CDH 的版本号。从 7.0 版本开始, CDP 支持 Private Cloud(私有云)和 Hybrid Cloud(混合云)。 CDP 将 HDP 和 CDH 中比较优秀的组件进行了整合,并且增加了一些新的组件。
参考
1一文看懂大数据生态圈完整知识体系【大数据技术及架构图解实战派】
https://blog.csdn.net/xu470438000/article/details/126136102?spm=1035.2023.3001.6557&utm_medium=distribute.pc_relevant_bbs_down_v2.none-task-blog-2defaultOPENSEARCHRate-1-126136102-bbs-607828811.pc_relevant_bbs_down_v2_opensearchbbsnew&depth_1-utm_source=distribute.pc_relevant_bbs_down_v2.none-task-blog-2defaultOPENSEARCHRate-1-126136102-bbs-607828811.pc_relevant_bbs_down_v2_opensearchbbsnew
网友评论