2.1 SparkContext 的概述

2.1 SparkContext 的概述

作者: GongMeng | 来源:发表于2018-11-13 19:07 被阅读0次

2.1 SparkContext 的概述
spark 2.1写入mysql spark 2.1 write
SparkContxt重要源码
Spark 源码浅析之 SparkContext 部分
Spark源码之SparkContext
SparkContext原理与源码剖析
Spark学习笔记(3)SparkContext源码
Spark文档 - 作业调度
2.1 垃圾回收概述
pyspark.SparkContext

SparkContext历史使命

我们写Spark程序时各种用到的sc是也, 可以说是产品经理的灵魂所在. 作为产品经理, 管理各种各样的任务和数据, 汇总团队情报然后分发. 裁掉那些摸鱼的搬砖工, 然后把活分给新来的.

sc的的结构

sc大体上的任务

启动sparkEnv, sparkEnv的结构前文中已经有配图. 里面包含了大量的Service.
这些Service负责分布式的状态管理
启动DAGScheduler. 根据RDD的一系列的内部构造, 生成一个任务执行的蓝图
启动JOBScheduler. 监控好各个Executor的状态, 让所有的JOB能够正常的运行在这些worker上
维护好各种配置信息, 并把任务执行需要的全局变量和全局计数器发到Executor上.
维护好RDD的状态, 作为RDD的初始化入口, 要么从文件系统中读取, 要么依赖一些第三方包如Kakfa-spark插件从其它的存储器中读取.

RDD

sc的构成

Applicaiton Status
- SparkEnv
- SparkConf
- deployment environment (as master URL)
- application name
- unique identifier of execution attempt
- deploy mode
- default level of parallelism
- Spark user
- the time (in milliseconds) when SparkContext was created
- URL of web UI
- Spark version
- Storage status
Setting Configuration
- master URL
- Local Properties — Creating Logical Job Groups
- Setting Local Properties to Group Spark Job
- Default Logging Level
Creating Distributed Entities
- RDDs
- Accumulators
- Broadcast variables
Many services
- BlockManager
- ShuffleManager
- ...
Running jobs synchronously
Submitting jobs asynchronously
Cancelling a job
Cancelling a stage
Assigning custom Scheduler Backend, TaskScheduler and DAGScheduler
Closure cleaning
Accessing persistent RDDs
Unpersisting RDDs, i.e. marking RDDs as non-persistent
Registering SparkListener
Programmable Dynamic Allocation

相关文章

2.1 SparkContext 的概述
SparkContext历史使命我们写Spark程序时各种用到的sc是也, 可以说是产品经理的灵魂所在. 作为产...
spark 2.1写入mysql spark 2.1 write
先说说spark 2.1的SparkSession，原来的SparkContext已经并入SparkSession...
SparkContxt重要源码
SparkContext重要源码 1.1 SparkContext 注释 1.2 SparkContext的构造函...
Spark 源码浅析之 SparkContext 部分
SparkContext SparkContext 是应用程序的入口，程序的运行是在 SparkContext 的...
Spark源码之SparkContext
Spark源码之SparkContext介绍篇 SparkContext介绍 SparkContext作为spar...
SparkContext原理与源码剖析
1. SparkContext原理 2. SparkContext源码剖析 SparkContext是再Drive...
Spark学习笔记(3)SparkContext源码
概述 Spark主程序的入口。一个SparkContext代表连接Spark集群，并且能用来创建RDD，累加器，广...
Spark文档 - 作业调度
概述 Spark提供了几个可以在计算过程之间调度资源的工具。首先，每个Spark应用程序（SparkContext...
2.1 垃圾回收概述
垃圾回收不需要关注程序计数器，虚拟机栈以及本地方法栈，这三者随线程而生，随线程而灭，栈帧进行出入栈的操作，并且栈帧...
pyspark.SparkContext
类pyspark.SparkContext A SparkContext represents the conne...

网友评论

本文标题：2.1 SparkContext 的概述

本文链接：https://www.haomeiwen.com/subject/fjolfqtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|2.1 SparkContext 的概述|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！