美文网首页程序员
比较通俗易懂的介绍一下spark是如何并行计算的

比较通俗易懂的介绍一下spark是如何并行计算的

作者: 飞叔Brother | 来源:发表于2018-06-07 07:49 被阅读119次

前几天搞清楚了spark是如何并行计算的,今天才想起来要记录一下,为什么突然搞清楚了?因为在此之前我才彻彻底底清楚了spark中RDD的前世今生,因为之前对RDD的概念模糊,所以导致对其余相关知识也是一知半解。

这是我上一篇结合hdfs对RDD的一个讲解(如果不明白,建议先看):对spark中RDD的partition通俗易懂的介绍

wordCount示意图

上图乃是一个非常传统的wordCount示意图,在这个程序中,Driver会把该application切分为多个job,因为每执行到一个action操作就会创建一个job,所以该程序只会有一个job,至于什么是action操作,道友网上找找就好,介绍这个东西的比比皆是。

随后,我们会有一个叫做DAGScheduler调度器的东西将上述的job切分为多个stage,从上图不难看出,stage的切分是通过宽依赖来切分的。

再随后,我们上述的每个stage下就会创建个TaskSet,这时,我们又有一个叫TaskScheduler的调度器将我们TaskSet中的每个task分配到各个worker上去执行,至于怎么分配,我上面的文章链接也说过。待执行完毕,返回Driver去汇总或存储。

可能有人还是对job,stage,task三者的关系不是很清楚,那么我们看下图。

层次划分关系

上述应该讲的很明确了,唯一没有说到的就是这个stage下的任务是如何划分的,stage下的每一个task实则对应操作RDD内的一个partition。所以说,浏览此文章之前应该先看一遍上方链接文章。

(如果对您有所帮助话,那就点个赞吧,嘻嘻~~)

安利一个特别热心的编程乐园群:624108656

超级热心的群

相关文章

  • 比较通俗易懂的介绍一下spark是如何并行计算的

    前几天搞清楚了spark是如何并行计算的,今天才想起来要记录一下,为什么突然搞清楚了?因为在此之前我才彻彻底底清楚...

  • Spark文档 - 快速入门

    本文简要介绍一下Spark。首先通过交互式shell介绍Spark API,然后是如何使用Scala编写应用程序。...

  • 大数据项目实战必备技能之Spark

    导读: spark是基于内存计算的大数据并行计算框架,对于spark,Apache spark官方给出的定义:sp...

  • java大数据之spark

    一、Spark简介 1.1 Spark是什么 Spark是一个通用的并行计算框架,由UCBerkeley的AMP实...

  • Spark简单介绍(二)

    spark是什么? spark开源的类Hadoop MapReduce的通用的并行计算框架 spark基于map ...

  • Spark Standalone Mode 单机启动Spark

    spark是个啥? Spark是一个通用的并行计算框架,由UCBerkeley的AMP实验室开发。 Spark和H...

  • Spark 简介

    spark 特点 spark是基于内存计算的大数据并行计算框架 具有如下特点: 运行速度快Spark使用先进的DA...

  • Spark GraphX

    Spark GraphX概述 GraphX是Spark的一个组件,专门用来表示图以及进行图的并行计算。GraphX...

  • Spark简介以及架构

    Spark是什么?Spark是基于内存计算的大数据并行计算框架.Spark基于内存计算,提高了在大数据环境下数据处...

  • Spark 工作原理及RDD

    Spark是一种开源的分布式并行计算框架,Spark拥有Hadoop Mapreduce计算框架的优点。但是与Ha...

网友评论

  • 5e6a7d25b46b:这个人好牛掰啊! 写的通俗易懂,让我顿时茅塞顿开。 :+1:

本文标题:比较通俗易懂的介绍一下spark是如何并行计算的

本文链接:https://www.haomeiwen.com/subject/hxjwsftx.html