美文网首页
2022-11-19_大数据系列概述篇学习笔记.md

2022-11-19_大数据系列概述篇学习笔记.md

作者: kikop | 来源:发表于2022-12-12 09:09 被阅读0次

20221119_大数据系列概述篇学习笔记.md

1概述

采集企业全域数据,然后存储起来,接着通过加工计算打通数据之间的关系,最后以API的形式对外提供数据服务进行使用

数据采集、数据存储、数据计算(离线、实时)、数据分析(OLAP)、数据检索、任务调度、资源管理、平台搭建。

d3b287a3f18d44e0afcbd0339f510c3f.png

1.1数据采集技术框架

数据采集技术框架包括以几种。

Sqoop和Datax常用于关系型数据库离线数据采集,它们之间的细节区别见表2;

Flume、Logstash和FileBeat常用于日志数据实时监控采集,它们之间的细节区别见表1;

Cannal和Maxwell常用于关系型数据库实时数据采集,它们之间的细节区别见表3。

1.1.1离线

1.1.1.1关系型数据库

Sqoop、Datax

1.1.2实时

1.1.2.1日志

Flume、Logstash和FileBeat常用于日志数据实时监控采集。

1.1.2.2关系型数据库

Cannal、Maxwell

1.2数据存储技术框架

数据存储技术框架包括HDFS、HBase、Kudu、Kafka等。

HDFS它可以解决海量数据存储的问题,但是其最大的缺点是不支持单条数据的修改操作,因为它毕竟不是数据库。
HBase是一个基于HDFS的分布式NoSQL数据库。这意味着,HBase可以利用HDFS的海量数据存储能力,并支持修改操作。但HBase并不是关系型数据库,所以它无法支持传统的SQL语法。
Kudu是介于HDFS和HBase之间的技术组件,既支持数据修改,也支持基于SQL的数据分析功能;目前Kudu的定位比较尴尬,属于一个折中的方案,在实际工作中应用有限。
Kafka常用于海量数据的临时缓冲存储,对外提供高吞吐量的读写能力。

1.3分布式资源管理

1.3.1大数据领域

Yarn

1.3.2云计算领域

Kubernetes、

Mesos

1.4数据计算技术框架

因此,目前企业中离线计算主要使用Spark,实时计算主要使用Flink。

1.4.1离线

大数据中的离线数据计算引擎经过十几年的发展,到目前为止主要发生了3次大的变更。

  1. MapReduce可以称得上是大数据行业的第一代离线数据计算引擎,主要用于解决大规模数据集的分布式并行计算。MapReduce计算引擎的核心思想是,将计算逻辑抽象成Map和Reduce两个阶段进行处理。
  2. Tez计算引擎在大数据技术生态圈中的存在感较弱,实际工作中很少会单独使用Tez去开发计算程序。
  3. Spark最大的特点就是内存计算:任务执行阶段的中间结果全部被放在内存中,不需要读写磁盘,极大地提高了数据的计算性能。Spark提供了大量高阶函数(也可以称之为算子),可以实现各种复杂逻辑的迭代计算,非常适合应用在海量数据的快速且复杂计算需求中。

spark

1.4.2实时

  1. Storm主要用于实现实时数据分布式计算;
  2. Flink属于新一代实时数据分布式计算引擎,其计算性能和生态圈都优于Storm。
  3. Spark中的SparkStreaming组件也可以提供基于秒级别的实时数据分布式计算功能。

storm:小型且独立的实时项目、

SparkStreaming满足秒级需求、

Flink:高吞吐、低延迟

1.5数据分析引擎(OLAP)

OLAP(Online Analytical Processing)是在线分析处理,顾名思义就是OLAP是用于数据分析

包括Hive、Impala、Kylin、Clickhouse、Druid、Drois等,它们的典型应用场景如图7所示。

1.5.1离线

Hive、Impala、Kylin

1.5.2实时

Druid、ClickHouse、Doris

1.6分布式任务调度

包括Azkaban、Ooize、DolphinScheduler等。它们适用于普通定时执行的例行化任务,以及包含复杂依赖关系的多级任务进行调度,支持分布式,保证调度系统的性能和稳定性,它们之间的区别见表7,它们之前的技术选型依据如图8所示。

Azkaban、Ooize、DolphinScheduler

1.7数据底层基础技术

大数据底层基础技术框架主要是指Zookeeper。Zookeepe主要提供常用的基础功能(例如:命名空间、配置服务等),大数据生态圈中的Hadoop(HA)、HBase、Kafka等技术组件的运行都会用到Zookeeper。

1.8海量全文检索

Lucene、Solr、Elasticsearch

1.9大数据集群安装管理框架

于是,国外一些厂商就对大数据中的组件进行了封装,提供了一体化的大数据平台,利用它可以快速安装大数据组件。目前业内最常见的是包括CDH、HDP、CDP、Ambari 等。

  1. HDP:全称是 Hortonworks Data Platform。它由 Hortonworks 公司基于 Apache Hadoop 进行了封装,借助于 Ambari 工具提供界面化安装和管理,并且集成了大数据中的常见组件, 可以提供一站式集群管理。HDP 属于开源版免费大数据平台,没有提供商业化服务;
  2. CDH:全称是 Cloudera Distribution Including Apache Hadoop。它由 Cloudera 公司基于 Apache Hadoop 进行了商业化,借助于 Cloudera Manager 工具提供界面化安装和管理,并且集成了大数据中的常见组件,可以提供一站式集群管理。CDH 属于商业化收费大 数据平台,默认可以试用 30 天。之后,如果想继续使用高级功能及商业化服务,则需要付费购买授权,如果只使用基础功能,则可以继续免费使用;
  3. CDP:Cloudera 公司在 2018 年 10 月份收购了 Hortonworks,之后推出了新一代的大数据平台产品 CDP(Cloudera Data Center)。CDP 的版本号延续了之前 CDH 的版本号。从 7.0 版本开始, CDP 支持 Private Cloud(私有云)和 Hybrid Cloud(混合云)。 CDP 将 HDP 和 CDH 中比较优秀的组件进行了整合,并且增加了一些新的组件。

参考

1一文看懂大数据生态圈完整知识体系【大数据技术及架构图解实战派】

https://blog.csdn.net/xu470438000/article/details/126136102?spm=1035.2023.3001.6557&utm_medium=distribute.pc_relevant_bbs_down_v2.none-task-blog-2defaultOPENSEARCHRate-1-126136102-bbs-607828811.pc_relevant_bbs_down_v2_opensearchbbsnew&depth_1-utm_source=distribute.pc_relevant_bbs_down_v2.none-task-blog-2defaultOPENSEARCHRate-1-126136102-bbs-607828811.pc_relevant_bbs_down_v2_opensearchbbsnew

相关文章

网友评论

      本文标题:2022-11-19_大数据系列概述篇学习笔记.md

      本文链接:https://www.haomeiwen.com/subject/lirvxdtx.html