2022-11-19_大数据系列概述篇学习笔记.md

作者: kikop | 来源:发表于2022-12-12 09:09 被阅读0次

2022-11-19_大数据系列概述篇学习笔记.md
2022-10-10_rocketmq通信协议体学习笔记
2022-07-26_Jdk调度线程服务ScheduledThr
2022-05-06_JavaLockSupport示例互斥锁学
2022-04-30_nginx之proxy_set_heade
2022-03-30_netty事件循环NioEventLoop
2022-03-08_spring@EnableCaching注
利用Python进行数据分析 - 准备工作
利用Python进行数据分析 - 引言のusa.gov数据示例
MD5数据加密

20221119_大数据系列概述篇学习笔记.md

1概述

采集企业全域数据，然后存储起来，接着通过加工计算打通数据之间的关系，最后以API的形式对外提供数据服务进行使用。

数据采集、数据存储、数据计算(离线、实时)、数据分析(OLAP)、数据检索、任务调度、资源管理、平台搭建。

d3b287a3f18d44e0afcbd0339f510c3f.png

1.1数据采集技术框架

数据采集技术框架包括以几种。

Sqoop和Datax常用于关系型数据库离线数据采集，它们之间的细节区别见表2；

Flume、Logstash和FileBeat常用于日志数据实时监控采集，它们之间的细节区别见表1；

Cannal和Maxwell常用于关系型数据库实时数据采集，它们之间的细节区别见表3。

1.1.1离线

1.1.1.1关系型数据库

Sqoop、Datax

1.1.2实时

1.1.2.1日志

Flume、Logstash和FileBeat常用于日志数据实时监控采集。

1.1.2.2关系型数据库

Cannal、Maxwell

1.2数据存储技术框架

数据存储技术框架包括HDFS、HBase、Kudu、Kafka等。

HDFS它可以解决海量数据存储的问题，但是其最大的缺点是不支持单条数据的修改操作，因为它毕竟不是数据库。
HBase是一个基于HDFS的分布式NoSQL数据库。这意味着，HBase可以利用HDFS的海量数据存储能力，并支持修改操作。但HBase并不是关系型数据库，所以它无法支持传统的SQL语法。
Kudu是介于HDFS和HBase之间的技术组件，既支持数据修改，也支持基于SQL的数据分析功能；目前Kudu的定位比较尴尬，属于一个折中的方案，在实际工作中应用有限。
Kafka常用于海量数据的临时缓冲存储，对外提供高吞吐量的读写能力。

1.3分布式资源管理

1.3.1大数据领域

Yarn

1.3.2云计算领域

Kubernetes、

Mesos

1.4数据计算技术框架

因此，目前企业中离线计算主要使用Spark，实时计算主要使用Flink。

1.4.1离线

大数据中的离线数据计算引擎经过十几年的发展，到目前为止主要发生了3次大的变更。

MapReduce可以称得上是大数据行业的第一代离线数据计算引擎，主要用于解决大规模数据集的分布式并行计算。MapReduce计算引擎的核心思想是，将计算逻辑抽象成Map和Reduce两个阶段进行处理。
Tez计算引擎在大数据技术生态圈中的存在感较弱，实际工作中很少会单独使用Tez去开发计算程序。
Spark最大的特点就是内存计算：任务执行阶段的中间结果全部被放在内存中，不需要读写磁盘，极大地提高了数据的计算性能。Spark提供了大量高阶函数（也可以称之为算子），可以实现各种复杂逻辑的迭代计算，非常适合应用在海量数据的快速且复杂计算需求中。

spark

1.4.2实时

Storm主要用于实现实时数据分布式计算；
Flink属于新一代实时数据分布式计算引擎，其计算性能和生态圈都优于Storm。
Spark中的SparkStreaming组件也可以提供基于秒级别的实时数据分布式计算功能。

storm:小型且独立的实时项目、

SparkStreaming满足秒级需求、

Flink:高吞吐、低延迟

1.5数据分析引擎(OLAP)

OLAP(Online Analytical Processing)是在线分析处理，顾名思义就是OLAP是用于数据分析。

包括Hive、Impala、Kylin、Clickhouse、Druid、Drois等，它们的典型应用场景如图7所示。

1.5.1离线

Hive、Impala、Kylin

1.5.2实时

Druid、ClickHouse、Doris

1.6分布式任务调度

包括Azkaban、Ooize、DolphinScheduler等。它们适用于普通定时执行的例行化任务，以及包含复杂依赖关系的多级任务进行调度，支持分布式，保证调度系统的性能和稳定性，它们之间的区别见表7，它们之前的技术选型依据如图8所示。

Azkaban、Ooize、DolphinScheduler

1.7数据底层基础技术

大数据底层基础技术框架主要是指Zookeeper。Zookeepe主要提供常用的基础功能（例如：命名空间、配置服务等），大数据生态圈中的Hadoop（HA）、HBase、Kafka等技术组件的运行都会用到Zookeeper。

1.8海量全文检索

Lucene、Solr、Elasticsearch

1.9大数据集群安装管理框架

于是，国外一些厂商就对大数据中的组件进行了封装，提供了一体化的大数据平台，利用它可以快速安装大数据组件。目前业内最常见的是包括CDH、HDP、CDP、Ambari 等。

HDP：全称是 Hortonworks Data Platform。它由 Hortonworks 公司基于 Apache Hadoop 进行了封装，借助于 Ambari 工具提供界面化安装和管理，并且集成了大数据中的常见组件，可以提供一站式集群管理。HDP 属于开源版免费大数据平台，没有提供商业化服务；
CDH：全称是 Cloudera Distribution Including Apache Hadoop。它由 Cloudera 公司基于 Apache Hadoop 进行了商业化，借助于 Cloudera Manager 工具提供界面化安装和管理，并且集成了大数据中的常见组件，可以提供一站式集群管理。CDH 属于商业化收费大数据平台，默认可以试用 30 天。之后，如果想继续使用高级功能及商业化服务，则需要付费购买授权，如果只使用基础功能，则可以继续免费使用；
CDP：Cloudera 公司在 2018 年 10 月份收购了 Hortonworks，之后推出了新一代的大数据平台产品 CDP（Cloudera Data Center）。CDP 的版本号延续了之前 CDH 的版本号。从 7.0 版本开始， CDP 支持 Private Cloud（私有云）和 Hybrid Cloud（混合云）。 CDP 将 HDP 和 CDH 中比较优秀的组件进行了整合，并且增加了一些新的组件。

参考

1一文看懂大数据生态圈完整知识体系【大数据技术及架构图解实战派】

https://blog.csdn.net/xu470438000/article/details/126136102?spm=1035.2023.3001.6557&utm_medium=distribute.pc_relevant_bbs_down_v2.none-task-blog-2_defaultOPENSEARCH_{Rate-1-126136102-bbs-607828811.pc_relevant_bbs_down_v2_opensearchbbsnew&depth_1-utm_source=distribute.pc_relevant_bbs_down_v2.none-task-blog-2}default_OPENSEARCHRate-1-126136102-bbs-607828811.pc_relevant_bbs_down_v2_opensearchbbsnew

网友评论

本文标题：2022-11-19_大数据系列概述篇学习笔记.md

本文链接：https://www.haomeiwen.com/subject/lirvxdtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

2022-11-19_大数据系列概述篇学习笔记.md

1概述

1.1数据采集技术框架

1.1.1离线

1.1.1.1关系型数据库

1.1.2实时

1.1.2.1日志

1.1.2.2关系型数据库

1.2数据存储技术框架

1.3分布式资源管理

1.3.1大数据领域

1.3.2云计算领域

1.4数据计算技术框架

1.4.1离线

1.4.2实时

1.5数据分析引擎(OLAP)

1.5.1离线

1.5.2实时

1.6分布式任务调度

1.7数据底层基础技术

1.8海量全文检索

1.9大数据集群安装管理框架

参考

1一文看懂大数据生态圈完整知识体系【大数据技术及架构图解实战派】

相关文章

2022-11-19_大数据系列概述篇学习笔记.md

2022-10-10_rocketmq通信协议体学习笔记

2022-07-26_Jdk调度线程服务ScheduledThr

2022-05-06_JavaLockSupport示例互斥锁学

2022-04-30_nginx之proxy_set_heade

2022-03-30_netty事件循环NioEventLoop

2022-03-08_spring@EnableCaching注

利用Python进行数据分析 - 准备工作

利用Python进行数据分析 - 引言のusa.gov数据示例

MD5数据加密

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读