美文网首页
Spark 相关概念介绍、架构原理、作业执行流程简介

Spark 相关概念介绍、架构原理、作业执行流程简介

作者: Alijie | 来源:发表于2017-03-27 13:38 被阅读0次

    这篇文章主要介绍 spark 的相关名词概念,和作业的执行流程,任务分配,希望通过这篇文章可以帮助大家对 spark 有一个更深层次的的理解。

    名词解释:

    1. Standalone模式下存在的角色。
    Client:客户端进程,负责提交作业到Master。
    Master:Standalone模式中主控节点,负责接收Client提交的作业,管理Worker,并命令Worker启动Driver和Executor。
    Worker:Standalone模式中slave节点上的守护进程,负责管理本节点的资源,定期向Master汇报心跳,接收Master的命令,启动Driver和Executor。
    Driver: 一个Spark作业运行时包括一个Driver进程,也是作业的主进程,负责作业的解析、生成Stage并调度Task到Executor上。包括DAGScheduler,TaskScheduler。
    Executor:即真正执行作业的地方,一个集群一般包含多个Executor,每个Executor接收Driver的命令Launch Task,一个Executor可以执行一到多个Task。

    2.作业相关的名词解释

    Job: 在用户程序中, 每次调用Action函数都会产生一个新的job, 也就是说一个Action都会生成一个job.

    Stage:一个Spark作业一般包含一到多个Stage。
    Task:一个Stage包含一到多个Task,通过多个Task实现并行运行的功能。
    DAGScheduler: 实现将Spark作业分解成一到多个Stage,每个Stage根据RDD的Partition个数决定Task的个数,然后生成相应的Task set放到TaskScheduler中。

    TaskScheduler:实现Task分配到Executor上执行。

    3、spark 根据 job 划分 stage 的过程
    构建RDD之间的依赖关系. 具体来说依赖有宽窄之分, 如果子RDD中的每个分区依赖常数个父RDD中的分区, 我们把这种依赖叫做窄依赖; 如果子RDD中的每个数据分片依赖父RDD的所有分片, 我们把这种依赖叫做宽依赖.

     在这儿我们在引入一个新的词汇lineage
    

    , 在spark中每个RDD都携带自己的lineage. 而lineage就是通过RDD之间的依赖来表示的.



    wide-narrow-dependency

    我们通过这幅图可以大概看一下宽窄依赖到底是这么回事. 图中矩形框围住的部分是RDD, 实心小矩形是Partition.
    接下来我们看一下Spark是如何构建DAG的. 当用户调用Action函数时, 调度器会逆向的遍历该RDD的lineage, 每个stage会尝试尽可能多包含那些连续的窄依赖. 如果当前的Stage向上回溯的过程中遇到了宽依赖, 则当前Stage结束, 一个新的Stage被构建. 第二个Stage是第一个Stage的parent. 还有一种情况也会结束当前Stage, 那就是那个partition已经被计算出来, 换存在内存中, 这种情况下我们就不必作多余的计算了.

     简单的说就是遇到宽依赖, 就生成新的Stage. 宽依赖会触发shuffle. 我们来看上边代码的visit函数: 拿到RDD的所有的dependency, 如果是窄依赖那么继续查找依赖的RDD的parent; 如果是宽依赖, 则调用getShuffleMapStage把生成的Stage加到当前stage的parents中. 该函数执行完毕, 则整个DAG就构建完成.
    

    两种方式的作业运行原理

    Driver运行在Worker上
    通过org.apache.spark.deploy.Client类执行作业,作业运行命令如下:
    ./bin/spark-class org.apache.spark.deploy.Client launch spark://host:port file:///jar_url org.apache.spark.examples.SparkPi spark://host:port
    作业执行流如图1所示。


    作业执行流程描述:
    1. 客户端提交作业给Master

    2. Master让一个Worker启动Driver,即SchedulerBackend。Worker创建一个DriverRunner线程,DriverRunner启动SchedulerBackend进程。

    3. 另外Master还会让其余Worker启动Exeuctor,即ExecutorBackend。Worker创建一个ExecutorRunner线程,ExecutorRunner会启动ExecutorBackend进程。

    4. ExecutorBackend启动后会向Driver的SchedulerBackend注册。SchedulerBackend进程中包含DAGScheduler,它会根据用户程序,生成执行计划,并调度执行。对于每个stage的task,都会被存放到TaskScheduler中,ExecutorBackend向SchedulerBackend汇报的时候把TaskScheduler中的task调度到ExecutorBackend执行。

    5. 所有stage都完成后作业结束。

    Driver运行在客户端
    直接执行Spark作业,作业运行命令如下(示例):
    ./bin/run-example org.apache.spark.examples.SparkPi spark://host:port
    作业执行流如图2所示。


    图2
    作业执行流程描述:

    1. 客户端启动后直接运行用户程序,启动Driver相关的工作:DAGScheduler和BlockManagerMaster等。

    2. 客户端的Driver向Master注册。

    3. Master还会让Worker启动Exeuctor。Worker创建一个ExecutorRunner线程,ExecutorRunner会启动ExecutorBackend进程。

    4. ExecutorBackend启动后会向Driver的SchedulerBackend注册。Driver的DAGScheduler解析作业并生成相应的Stage,每个Stage包含的Task通过TaskScheduler分配给Executor执行。

    5. 所有stage都完成后作业结束。
      基于Yarn的Spark架构与作业执行流程


      这里Spark AppMaster相当于Standalone模式下的SchedulerBackend,Executor相当于standalone的ExecutorBackend,spark AppMaster中包括DAGScheduler和YarnClusterScheduler。
      Spark on Yarn的执行流程可以参考http://www.csdn.net/article/2013-12-04/2817706--YARN spark on Yarn部分。
      这里主要介绍一下Spark ApplicationMaster的主要工作。代码参考Apache Spark 0.9.0版本ApplicationMaster.scala中的run()方法。
      步骤如下:
    6. 设置环境变量spark.local.dir和spark.ui.port。NodeManager启动ApplicationMaster的时候会传递LOCAL_DIRS(YARN_LOCAL_DIRS)变量,这个变量会被设置为spark.local.dir的值。后续临时文件会存放在此目录下。

    7. 获取NodeManager传递给ApplicationMaster的appAttemptId。

    8. 创建AMRMClient,即ApplicationMaster与ResourceManager的通信连接。

    9. 启动用户程序,startUserClass(),使用一个线程通过发射调用用户程序的main方法。这时候,用户程序中会初始化SparkContext,它包含DAGScheduler和TaskScheduler。

    10. 向ResourceManager注册。

    11. 向ResourceManager申请containers,它根据输入数据和请求的资源,调度Executor到相应的NodeManager上,这里的调度算法会考虑输入数据的locality。

    文章如有错漏还望多批评指正。

    文章参考链接:
    Spark Job执行流程源码解析
    Spark架构与作业执行流程简介

    相关文章

      网友评论

          本文标题:Spark 相关概念介绍、架构原理、作业执行流程简介

          本文链接:https://www.haomeiwen.com/subject/ntqrottx.html