美文网首页Spark深入学习咸鱼的梦想Spark慢慢来
Spark 多个Stage执行是串行执行的么?

Spark 多个Stage执行是串行执行的么?

作者: 祝威廉 | 来源:发表于2016-09-03 10:14 被阅读3283次

上次在做内部培训的时候,我讲了这么一句:

一个Job里的Stage都是串行的,前一个Stage完成后下一个Stage才会进行。

显然上面的话是不严谨的。

看如下的代码:

Snip20160903_17.png

这里的话,我们构建了两个输入(input1,input2),input2带有一个reduceByKey,所以会产生一次Shuffle,接着进行Join,会产生第二次Shuffle(值得注意的是,join 不一定产生新的Stage,我通过强制变更join后的分区数让其发生Shuffle ,然后进行Stage的切分)。

所以这里一共有两次Shuffle,产生了四个Stage。 下图是Spark UI上呈现的。那这四个Stage的执行顺序是什么呢?

Snip20160903_11.png

再次看Spark UI上的截图:

Snip20160903_16.png

我们仔细分析下我们看到现象:

首先我们看到 Stage0,Stage 1 是同时提交的。

Stage0 只有两条记录,并且设置了两个Partition,所以一次性就能执行完,也就是3s就完成了。

Stage1 有四个分区,六条记录,记录数最多的分区是两条,也就是需要执行10秒,如果完全能并行执行,也就是最多10s。但是这里消耗了13秒,为什么呢?点击这个13秒进去看看:

Snip20160903_15.png

我们看到有两个task 延迟了3秒后才并行执行的。 根据上面的代码,我们只有四颗核供Spark使用,Stage0 里的两个任务因为正在运行,所以Stage1 只能运行两个任务,等Stage0 运行完成后,Stage1剩下的两个任务才接着运行。

之后Stage2 是在Stage1 执行完成之后才开始执行,而Stage3是在Stage2 执行完成才开始执行。

现在我们可以得出结论了:

  • Stage 可以并行执行的
  • 存在依赖的Stage 必须在依赖的Stage执行完成后才能执行下一个Stage
  • Stage的并行度取决于资源数

我么也可以从源码的角度解释这个现象:

Snip20160903_18.png

我们看到如果一个Stage有多个依赖,会深度便利,直到到了根节点,如果有多个根节点,都会通过submitMissingTasks 提交上去运行。当然Spark只是尝试提交你的Tasks,能不能完全并行运行取决于你的资源数了。

这里再贡献一张画了很久的示意图,体现了partition,shuffle,stage,RDD,transformation,action,source 等多个概念。

相关文章

  • Spark 多个Stage执行是串行执行的么?

    上次在做内部培训的时候,我讲了这么一句: 一个Job里的Stage都是串行的,前一个Stage完成后下一个Stag...

  • Spark 并行度

    大数据学习交流微信群 Spark 并行度是指一个stage下并行执行的task数量,由于一个task线程只能执行一...

  • Spark程序内部的调度

    在多个Job间公平的分发资源 FIFO调度执行模式 Spark是线程安全的,可以同时安全的执行多个Job, Spa...

  • Python_线程详解

    并行:任务数<=CPU数,多核CPU同时执行多个任务 并发:任务书>=CPU数,单核CPU串行执行多个任务,只是切...

  • 多线程详解-NSThread、GCD、NSOperation

    线程的串行 一个线程中任务的执行是串行的如果要再一个线程中执行多个任务,那么只能一个一个的按顺序执行这些任务也就是...

  • 第1章 走入并行世界(基本概念)

    并发和并行都可以表示两个或者多个任务一起执行,并发偏重于多个任务交替执行(多个任务间还是串行),并行是多个任务同时...

  • Flutter (十一)异步执行

    异步执行 异步执行做成同步的效果 需要使用async和await关键字 【串行】 多个异步执行完之后再往下走 【...

  • Swift GCD

    参考链接 主线程 串行队列 同步依次执行,在主线程依次执行 同步依次执行,在同一个线程执行 并行队列 创建多个线程...

  • go实现多个goroutine串行执行

    实现方式:用map[int]func(uin32)来实现,将要执行的函数放入map中,用map的key来作为实现顺...

  • 初识线程

    串行 串行是指执行多个任务时,各个任务按顺序执行,完成一个之后才能进行下一个。 并发 单个处理器上来回切换任务(在...

网友评论

  • HUAWEIMate20:你好,请教一个问题,在hadoop中input split的个数决定了map的个数,但是在spark中这个task的个数由谁决定呢?比如说由4个stage,第一个stage有10个Partition,第二个5个Partition,第三个stage有15个Partition,最后一个stage有10个Partition,那么spark on yarn是粗粒度分配资源的,一次性申请资源,要申请多少呢?申请多少executor和多少个task呢?我一直搞不清楚executor和task的关系
  • 677a4be47378:stage2跟stage3共同指向RDD5吗?
    祝威廉:不是。参看楼上。Stage2 指向的RDD4那
  • 52e8530f8b60:你好,请问最后那张示意图里,stage3写在transformation左边那儿是什么意思?谢谢
    祝威廉:@予恶乎知 看的很仔细 应该画在rdd5 那

本文标题:Spark 多个Stage执行是串行执行的么?

本文链接:https://www.haomeiwen.com/subject/xprkettx.html