Apache Spark 是 UC Berkeley AMP Lab 开源的类 Hadoop MapReduce 的通用并行框架,是专为大规模数据处理而设计的快速通用的计算引擎。
Spark 是目前最流行的批流统一的大数据处理平台。Spark 自 2014 年发布 1.2 版本以来,已经成为了大数据领域不可或缺的计算组件,近几年发展迅速,社区非常活跃。Spark 已经形成了一套自己的生态圈,主要包括 Spark SQL 批处理/交互式查询,Spark Streaming 流式计算,GraphX 和 MLlib 提供常用的图计算和机器学习算法。
截至目前,Spark 最新发布版本为 2.4.3。
本文来自近期的一次 Spark 内部分享,内容主要包括 Spark RDD 的重点介绍, 以及 Spark 核心模块 DAGScheduler、TaskScheduler、BlockManager 等讲解,内容充实。如下
-
Spark简介及总体流程
-
Spark核心模块的实现
-
Spark应用库
-
Spark与Hadoop的区别与联系
-
Spark应用
关注本微信公众号并回复 0705 即可获取完整 PPT。内容:

往期文章精选
如果您喜欢这篇文章,点【在看】与转发都是一种鼓励,期待得到您的认可 ❥(^_-)
网友评论