Spark架构原理

作者: 董可伦 | 来源:发表于2018-07-12 21:11 被阅读10次

    我的原创地址:https://dongkelun.com/2018/06/09/sparkArchitecturePrinciples/

    前言

    本文总结了Spark架构原理,其中主要包括五个组件:Driver、Master、Worker、Executor和Task,简要概括了每个组件是干啥的,并总结提交spark程序之后,这五个组件运行的详细步骤。

    1、流程图

    为了直观,就把流程图放在最前面了
    [图片上传失败...(image-c264b5-1531401067179)]

    2、Driver

    driver是一个进程,我们编写的spark程序运行在driver上,由dirver进程执行,driver是作业的主进程,具有main函数,是程序的入口点,driver进程启动后,向master发送请求,进行注册,申请资源,在后面的executor启动后,会向dirver进行反注册,dirver注册了executor后,正式执行spark程序,读取数据源,创建rdd或dataframe,生成stage,提交task到executor

    3、Master

    Master是个进程,主要负责资源的调度和分配,集群的监控等。

    4、Worker

    worke是个进程,主要负责两个,一个是用自己的内存存储RDD的某个或某些partition,另一个是启动其他进程和线程,对RDD上的partition进行处理和计算。

    5、Executor

    Executor是个进程,一个Executor执行多个Task,多个Executor可以并行执行,可以通过--num-executors来指定Executor的数量,但是经过我的测试,Executor最大为集群可用的cpu核数减1。

    6、Task

    Task是个线程,具体的spark任务是在Task上运行的,某些并行的算子,有多少个分区就有多少个task,但是有些算子像take这样的只有一个task。

    7、详细的流程

    1、Driver进程启动之后,会进行一些初始化的操作,在这个过程中,会发送请求到master
    2、Master,接收到Driver的注册之后,发送请求给Worker,进行资源的调度和分配,也就是Executor的分配
    3、Worker接收到master的请求,启动Executor
    4、Executor启动之后,会向Driver进行反注册
    5、Driver注册了Executor之后,正式开始执行Spark程序,首先读取数据源,创建RDD
    6、HDFS文件被读取到多个Worker节点,形成RDD
    7、在worker上生成RDD之后,Driver会根据我们对RDD定义的操作,提交相应数量的Task到Executor上

    相关文章

      网友评论

        本文标题:Spark架构原理

        本文链接:https://www.haomeiwen.com/subject/ajfdpftx.html