spark开发笔记(一、基本概念和环境搭建)

作者: 眼君 | 来源:发表于2020-08-28 16:04 被阅读0次

Intellij之Spark Scala开发环境搭建
spark开发笔记(一、基本概念和环境搭建)
Spark 以及 spark streaming 核心原理及实践
Spark集群环境搭建
史上最快! 10小时大数据入门实战(九)- 前沿技术拓展Spar
Spark maven开发环境搭建
2018-11-12Pyspark win环境配置参考
Spark安装--及快速开始
从头学习大数据 spark 基于内存的分布式计算框架（一）spa
Spark课程大纲

基本概念

RDD(弹性分布式数据集)

是分布式内存的一个抽象概念，提供了一种高度受限的共享内存模型。

Application(应用程序)

指用户编写的Spark应用程序，包含驱动程序(Driver)和分布在集群中多个节点上运行的Executor代码，在执行中由一个或多个作业组成。

Driver(驱动程序)

即运行上述Application的main函数并且创建SparkContext，以准备spark应用环境的运行程序。
在Spark中由SparkContext负责与ClusterManager通信，进行资源的申请、任务的分配和监控；当Executor部分运行完毕后，Driver负责将SparkContext关闭。
通常用SparkContext代表Driver。

Worker(工作节点)

集群中任何可以运行Application代码的节点，类似于YARN中的NodeManager节点。
Standalone模式中指通过Slave文件配置的Worker节点。
Spark on yarn模式中指的就是NodeManager节点。

Executor(执行进程)

Application运行在Worder节点上的一个进程，该进行负责运行Task,并负责将数据存储在内存或者磁盘上，每个Application都有各自独立的一批Executor。

Task

运行在Executor上的工作单元。

Job

一个job包含多个RDD以及作用于相应RDD上的各种操作。

Stage

是Job的基本调度单位，一个Job会分为多组Task，每组Task被称为Stage，或者TaskSet，代表一组关联的，相互之间没有Shuffle依赖关系的任务组成的任务集。

Cluster Manager(集群资源管理器)

是指在集群上获取资源的外部服务，目前有以下几种：
Standalone：Spark原生的资源管理，由Master负责资源的管理。
Hadoop Yarn：有YARN中的ResourceManager负责资源的管理。
Mesos：由Mesos中的Mesos Master负责资源的管理。

Master(总控进程)

Spark Standalone运行模式下的主节点，负责管理和分配集群资源来运行Spark Application。

运行架构

Spark运行架构特点：

每个Application都有自己专属的Executor进程，并且该进程在Application运行期间一直驻留。Executor进程以多线程的方式运行Task。

Spark运行过程与资源管理器无关，只要能够获取Executor进程并保持通信即可。

Task采用了数据本地性和推测执行等优化机制。

与Hadoop MapReduce计算框架相比，Spark采用的Executor有两个优点：

利用多线程来执行具体的任务减少任务的启动开销；

Executor中有一个BlockManager存储模块，会将内存和磁盘共同作为存储设备，有效减少IO开销。

环境搭建

下载解压

将spark下载解压到虚拟机中：

tar -zxvf spark-2.0.2-bin-hadoop2.7.tgz -C ./

修改配置文件

以下命令进入spark配置文件所在目录：

cd /home/spark-2.0.2-bin-hadoop2.7/conf

修改配置文件spark-env.sh，填写如下内容：

export JAVA_HOME=/home/jdk1.8.0_181
export SPARK_MASTER_HOST=master
export SPARK_MASTER_PORT=7077

修改配置文件slaves，填写slave节点的host:

slave1
slave2

到这里，spark配置文件修改完毕，只需将spark分发到所有节点即可。

启动集群

如果将 $SPARK_HOME/bin和$ SPARK_HOME/sbin配置到了环境变量, 执行以下命令就可以启动集群的master和work:

start-master.sh
start-slaves.sh

可以通过master:8080访问spark的Web端页面。

使用集群

通过如下测试用例测试其功能是否正常：

./bin/run-example SparkPi 10

我们也可以用分布式集群来执行这个任务:

./spark-submit \
--class org.apache.spark.examples.SparkPi \
--master spark://master:7077 \
--driver-memory 512m \
--executor-memory 512m \
--total-executor-cores 2 \
/home/spark-2.0.2-bin-hadoop2.7/examples/jars/spark-examples_2.11-2.0.2.jar \
100

Spark Shell本身就是一个Driver，里面已经包含了main方法，在Spark的bin目录下执行以下命令启动Spark Shell:

spark-shell --master <master-url>

Spark的运行模式取决于传递给SparkContext的Master URL的值，Master URL可以是以下任意一种形式：

local：使用一个Worker线程本地化运行Spark(完全不并行)
local[*]：使用逻辑CPU个数数量的线程来本地化运行Spark
local[k]：使用k个Worker线程本地化运行Spark(理想情况下，k根据运行机器的CPU核数设定)
spark://HOST:PORT 连接到指定的Spark standalone master。默认端口是7077，这种方式用于集群配置。
yarn-client：以客户端模式连接YARN集群，集群的位置可以在HADOOP_CONF_DIR环境变量中找到。
yarn-cluster：以集群模式连接YARN集群，集群位置可以在HADOOP_CONF_DIR环境变量中找到。
mesos://HOST:PORT：连接到指定的Mesos集群，默认接口是5050。

在Spark中采用本地模式启动Spark Shell的命令主要包含以下参数：

我们也可以不加任何参数，默认是local模式：

spark-shell

以下命令用分布式集群来执行wordcount任务:

spark-shell \
--master spark://master:7077 \
--executor-memory 512m \
--total-executor-cores 2

网友评论

眼君的大数据之路

本文标题：spark开发笔记(一、基本概念和环境搭建)

本文链接：https://www.haomeiwen.com/subject/cfhcsktx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

spark开发笔记(一、基本概念和环境搭建)

基本概念

RDD(弹性分布式数据集)

Application(应用程序)

Driver(驱动程序)

Worker(工作节点)

Executor(执行进程)

Task

Job

Stage

Cluster Manager(集群资源管理器)

Master(总控进程)

运行架构

环境搭建

下载解压

修改配置文件

启动集群

使用集群

相关文章

Intellij之Spark Scala开发环境搭建

spark开发笔记(一、基本概念和环境搭建)

Spark 以及 spark streaming 核心原理及实践

Spark集群环境搭建

史上最快! 10小时大数据入门实战(九)- 前沿技术拓展Spar

Spark maven开发环境搭建

2018-11-12Pyspark win环境配置参考

Spark安装--及快速开始

从头学习大数据 spark 基于内存的分布式计算框架（一）spa

Spark课程大纲

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

眼君的大数据之路