SparkContext的原理剖析

作者: 程序媛啊 | 来源:发表于2018-03-13 23:00 被阅读0次

1、当driver启动后会去运行我们的application，在运行application的时候，所有spark程序的第一行都是先创建SparkContext，在创建SparkContext的时候，它的内部创建两个非常重要的东西DAGSchedule和TaskSchedule，TaskSchedule在创建的时候就会向spark集群的master进行注册。
2、spark最最核心的内部会创建3个东西，首先是会createTaskScheduler()，createTaskScheduler()里面会创建三个东西，首先是TaskSchedulerImpl(它其实就是TaskScheduler)，然后创建SparkDeploySchedulerBackend（它在底层会受TaskSchedulerImp的控制，实际上负责与Master的注册，Executor的反注册，Task发送到Executor等操作）,然后调用TaskSchedulerImpl的init()方法，创建SchedulerPool调度池，它有不同的优先策略，比如收FIFO先进先出。
3、在创建完TaskSchedulerImpl和SparkDeploySchedulerBackend之后，是执行TaskSchedulerImpl的start()方法，这个方法内部实际上会调用SparkDeploySchedulerBackend的start()方法，在这个start()方法里会创建AppClient，AppClient里会启动一个线程，也就是ClientActor,ClientActor会调用两个方法，registerWithMaster()，会去调用tryRegisterAllMaster()。这两个方法会向master发送一个东西叫做RegisterApplication(case class,里面封装了application的信息)，就会发送到spark集群的Master上面去，后面回去找worker，然后启动executor，然后executor启动后会反向注册到SparkDeploySchedulerBackend上面去。这就是TaskScheduler的初始化机制。TaskSchedulerImpl底层主要基于SparkDeploySchedulerBackend工作。
4、DAGScheduler创建的时候有一个非常重要的东西，DAGSchedulerEvenProcessActor，DAGScheduler底层基于该组件进行通讯（线程）
5、SparkUI。4040端口，线上application运行的状态，启动一个jetty服务器，来提供web服务，从而显示网页。

SparkContext原理剖析.png

网友评论

本文标题：SparkContext的原理剖析

本文链接：https://www.haomeiwen.com/subject/zifxqftx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

SparkContext的原理剖析

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读