Spark内核分析之Spark的HA源码分析

作者: z小赵 | 来源:发表于2017-12-21 18:32 被阅读25次

Spark内核分析之Spark的HA源码分析
下周任务
spark 源码分析系列 - wordcount 源码分析
Spark内核源码深度分析
2. Spark Streaming流计算框架的运行流程源码分析
Spark Streaming限流反压机制源码剖析
看过的好的博客
Spark源码分析：Spark运行模式及原理
Spark | HA
Spark Task 的执行流程④ - task 结果的处理

Spark作业运行的集群环境有两种，分别基于standalone模式和Yarn集群模式。我们知道Yarn集群提供了HA来保证了集群的高可用，而standalone也提供了一种集群高可用的方法，即通过配置可以实现双master机制，保证在一个master挂掉以后，另外一个master立即启用。spark的主备切换提供了两种模式，一种是基于文件系统的，另外一种是基于zookeeper的。下面我们来看看spark集群的master主备切换是怎么实现的，如下图所示；

Master主备切换原理图

1.当active master挂掉以后，通知standby master启动，并使用持久化引擎对持久化数据进行读取；

2.持久化引擎将不为空的数据全部注册到master的内存缓冲中；

3.master向所有的Application，Worker发送自己的地址信息；

4.Application，Driver，Worker收到消息并返回一个消息告知master；

5.master一一接收到来自各个Application，worker，Driver的消息以后，开始过滤掉没有响应的节点信息，然后开始调用scheduler()方法，开始为相关进程分配资源；

通过以上原理的介绍，下面看看我们的源码具体是怎么实现的，

worker过滤具体实现

application过滤实现

Driver过滤实现

关于持久化引擎的补充说明，在spark中引入了三种持久化引擎，分别是基于文件的持久化引擎，基于zookeeper的持久化引擎，BlackHolePersistenceEngine引擎；系统默认采用的是基于文件的持久化引擎，可以通过spark.deploy.recoveryMode参数配置具体采用那种持久化引擎，该参数的设置位置时spark-env.sh中。

设置为zookeeper的方式：

//spark.deploy.recoveryMode=ZOOKEEPER

//spark.deploy.zookeeper.url=192.168.1.100:2181,192.168.1.101:2181

// /spark是默认的，可以不写

//spark.deploy.zookeeper.dir=/spark

设置为基于文件系统的方式：