Apache Spark 是 UC Berkeley AMP Lab 开源的类 Hadoop MapReduce 的通用并行框架,是专为大规模数据处理而设计的快速通用的计算引擎。
Spark 是目前最流行的批流统一的大数据处理平台。Spark 自 2014 年发布 1.2 版本以来,已经成为了大数据领域不可或缺的计算组件,近几年发展迅速,社区非常活跃。Spark 已经形成了一套自己的生态圈,主要包括 Spark SQL 批处理/交互式查询,Spark Streaming 流式计算,GraphX 和 MLlib 提供常用的图计算和机器学习算法。
截至目前,Spark 最新发布版本为 2.4.3。
本文来自近期的一次 Spark 内部分享,内容主要包括 Spark RDD 的重点介绍, 以及 Spark 核心模块 DAGScheduler、TaskScheduler、BlockManager 等讲解,内容充实。如下
-
Spark简介及总体流程
-
Spark核心模块的实现
-
Spark应用库
-
Spark与Hadoop的区别与联系
-
Spark应用
关注本微信公众号并回复 0705 即可获取完整 PPT。内容:
image image image image image image image image image.png image image image image image image image image image image image image image image image image image image image image image image image image往期文章精选
如果您喜欢这篇文章,点【在看】与转发都是一种鼓励,期待得到您的认可 ❥(^_-)
网友评论