美文网首页
Spark名词解释

Spark名词解释

作者: 及未来 | 来源:发表于2019-12-22 08:45 被阅读0次

    Spark的相关名词有时候学着学着会弄混,就趁着这次自己总结一次,也许不是很好,但不能因此就放弃不写;

    Driver

    提交Spark Application(应用)的机器。有些算子操作也需要对Driver端操作,如使用collect, show等算子,需要汇集到Driver端,对Driver的计算性能,内存都有一定要求。

    Worker

    计算节点(机器),该机器用于计算Application代码。

    Executor

    • executor-num 数量
    • executor-core 每个executor分配的虚拟计算核数
    • executor-memory 每个executor分配的内存
      Executor是Worker节点上用于计算的进程,每个executor进程有多个task,多个task以多线程形式运行。


      该图片非原创

    该图片来自http://www.raincent.com/content-85-11052-1.html

    Spark会分析Application的计算逻辑,并作出计划(就是常说的DAG有向无环图),并把任务拆分成多个Job(任务),再将每个Job划分成多个Stage(阶段),每个Stage又划分成多个task

    Job

    spark应用中有多个action操作,每个action会触发RunJob操作,也就是每个action操作就出现一个job

    Stage

    spark将一个个的job又拆分个多个stage,而拆分stage的依据则是,是否产生shuffle操作进行划分

    Task

    worker下有多个executor进程,executor下有多个task,task以多线程形式运行。

    1. 在普通的RDD计算操作时,RDD有多少个Partition就有多少个task计算
    2. 在读取HDFS文件时,task数目默认以文件所占的Block数目

    Partition

    patition就是分区,将数据集RDD分成多个partition分区,计算时就会分成对应数量的task,多个task将并行计算。在资源足够的前提下,且暂不考虑分布式时的网络传输速率,task越多,并行度越大,计算速度越快。所以提高patition通常也就是我们常说的增加并行度的方式。

    如果喜欢这篇文章的话可以帮忙点个赞吗?这对我真的很重要!!

    相关文章

      网友评论

          本文标题:Spark名词解释

          本文链接:https://www.haomeiwen.com/subject/beznnctx.html