Spark

作者: Grey____ | 来源:发表于2019-01-29 10:51 被阅读0次

大数据面试必备知识点总结：Spark，Hadoop，kafka，
spark安装与部署
Spark 入门
Spark Core 解析：RDD
数据倾斜（五）：Spark是如何解决数据倾斜的
spark任务调度详解
每天一句话-spark 自定义Hadoop/Hive配置
5W字总结Spark（一）(建议收藏)
Spark核心功能设计详解
Spark Steaming Abstract

1.task、job、partition之间的关系
1.1一个task处理一个partition的数据
1.2partition的数量是根据一次任务需要处理的hdfs上的block的数量决定的
1.3一个action类算子对应一个job
1.4一个job处理一个或多个partition的数据，所以一个job对应多个partition

作者：二营长1
来源：CSDN
原文：https://blog.csdn.net/qq_41950069/article/details/80828862
版权声明：本文为博主原创文章，转载请附上博文链接！

job : A job is triggered by an action, like count() or saveAsTextFile(). Click on a job to see information about the stages of tasks inside it. 理解了吗，所谓一个 job，就是由一个 rdd 的 action 触发的动作，可以简单的理解为，当你需要执行一个 rdd 的 action 的时候，会生成一个 job。
stage : stage 是一个 job 的组成单位，就是说，一个 job 会被切分成 1 个或 1 个以上的 stage，然后各个 stage 会按照执行顺序依次执行。
task : A unit of work within a stage, corresponding to one RDD partition。即 stage 下的一个任务执行单元，一般来说，一个 rdd 有多少个 partition，就会有多少个 task，因为每一个 task 只是处理一个 partition 上的数据。从 web ui 截图上我们可以看到，这个 job 一共有 2 个 stage，66 个 task，平均下来每个 stage 有 33 个 task，相当于每个 stage 的数据都有 33 个 partition [注意：这里是平均下来的哦，并不都是每个 stage 有 33 个 task，有时候也会有一个 stage 多，另外一个 stage 少的情况，就看你有没有在不同的 stage 进行 repartition 类似的操作了。

名词
driver
　　driver物理层面是指输入提交spark命令的启动程序，逻辑层面是负责调度spark运行流程包括向master申请资源，拆解任务，代码层面就是sparkcontext。

worker
worker指可以运行的物理节点。

executor
　　executor指执行spark任务的处理程序，对java而言就是拥有一个jvm的进程。一个worker节点可以运行多个executor，只要有足够的资源。

job
job是指一次action，rdd（rdd在这里就不解释了）操作分成两大类型，一类是transform，一类是action，当涉及到action的时候，spark就会把上次action之后到本次action的所有rdd操作用一个job完成。

stage
stage是指一次shuffle，rdd在操作的时候分为宽依赖（shuffle dependency）和窄依赖（narraw dependency），如下图所示。而宽依赖就是指shuffle。

应某人要求再解释一下什么是窄依赖，就是父rdd的每个分区都只作用在一个子rdd的分区中，原话是这么说的 each partition of the parent RDD is used by at most one partition of the child RDD。