美文网首页
大数据学习十九:Spark Glossary(术语)

大数据学习十九:Spark Glossary(术语)

作者: RacyFu | 来源:发表于2018-12-17 23:55 被阅读0次

Application : 以SparkContext为基础的代码,1个SparkContext 对应一个Application,由一个Driver进程和多个Excutor进程组成。

Driver Program : 一个进程,运行构造SparkContext的main()方法

Cluster Manager : 管理资源的一个外部服务,比如Yarn、Mesos、k8s (--master)

Deploy mode : 决定Driver进程运行的位置。一、client模式,Driver运行在本地(运行./spark-submit的节点),默认为client模式;二、cluster模式(--deploy-mode),Yarn的话就运行在NodeManager中。选择哪种模式考虑网络延迟,Master和Worker在同一网络内适合Client模式,Master和Worker距离较远适合Cluster模式。

cluster on yarn client on yarn

Worker Node : 执行代码的节点,这个词语对应于Standalone模式,在Yarn中位于NodeManager节点

Excutor : 一个进程,运行tasks和在内存或磁盘中保存数据。(Application之间的Exutor可以共享,使用外部存储系统【Alluxio】)

Task : 是spark最小的工作单元,由Driver发送到Excutor取执行。

Job :触发action就会产生Job

action

Stage :遇到Shuffle时会把Job拆成一个tasks集合,没有shuffle时就是1个

窄依赖:一个RDD中的每个Partition只被子RDD的Partion使用一次

宽依赖:一个RDD中的每个Partion可被子RDD的多个Partion使用

算子:官网有常见20种Transformation(lazy)和12中Action , http://spark.apache.org/docs/1.6.2/programming-guide.html

相关文章

  • 大数据学习十九:Spark Glossary(术语)

    Application : 以SparkContext为基础的代码,1个SparkContext 对应一个Appl...

  • 2019-12-26

    glossary n 词汇表 ,术语汇编eg:You should preview the new wor...

  • Spark运行原理

    本文主要分以下章节: 一、Spark专业术语定义 二、 Spark的任务提交机制 一、Spark专业术语定义 1、...

  • Spark运行原理

    本文主要分以下章节: 一、Spark专业术语定义 二、 Spark的任务提交机制 一、Spark专业术语定义 1、...

  • Spark运行原理

    本文主要分以下章节: 一、Spark专业术语定义 二、 Spark的任务提交机制 一、Spark专业术语定义 1、...

  • Spark运行原理

    本文主要分以下章节: 一、Spark专业术语定义 二、 Spark的任务提交机制 一、Spark专业术语定义 1、...

  • Spark运行原理

    本文主要分以下章节: 一、Spark专业术语定义 二、 Spark的任务提交机制 一、Spark专业术语定义 1、...

  • Spark运行原理

    本文主要分以下章节: 一、Spark专业术语定义 二、 Spark的任务提交机制 一、Spark专业术语定义 1、...

  • [转载]spark 中几个重要概念

    学习Spark,有几个重要的术语需要弄清楚。 Application: 用户在spark上构建的程序,包含了dri...

  • 《精通以太坊》-快速词汇表

    原文:Quick Glossary 这个快速词汇表包含许多与以太坊相关的术语。这些术语在本书中都有使用,所以请将其...

网友评论

      本文标题:大数据学习十九:Spark Glossary(术语)

      本文链接:https://www.haomeiwen.com/subject/ecvhkqtx.html