术语 | 含义 |
---|---|
Application | 用户编写的Spark应用程序,包括一个Driver和多个executors |
Application jar | 包含用户程序的Jar包 |
Driver Program | 运行main()函数并创建SparkContext进程 |
Cluster manager | 在集群上获取资源的外部服务,如standalone manager,yarn,Mesos |
deploy mode | 部署模式,区别在于driver process运行的位置 |
worker node | 集群中可以运行程序代码的节点(机器) |
Executor | 运行在worker node上执行具体的计算任务,存储数据的进程 |
Task | 被分配到一个Executor上的计算单元 |
Job | 由多个任务组成的并行计算阶段,因RDD的Action产生 |
Stage | 每个Job被分为小的计算任务组,每组称为一个stage |
DAGScheduler | 根据Job构建基于Stage的DAG,并提交Stage给TaskScheduler |
TaskScheduler | 将TaskSet提交给worker运行,每个executor运行什么task在此分配 |
网友评论