《Spark技术内幕》读书笔记——RDD源码

《Spark技术内幕》读书笔记——RDD源码

作者: 抬头挺胸才算活着 | 来源:发表于2022-01-02 11:06 被阅读0次

《Spark技术内幕》读书笔记——RDD源码
Spark Core
Spark 控制算子源码解析
Spark源码之DAGScheduler
Spark源码分析：DAGScheduler
Spark源码解析：RDD
spark技术
Spark RDD Api使用指南
深入理解Spark 2.1 Core （二）：DAG调度器的原理
大数据技术，Spark之RDD，RDD超详细讲解（二）

主要属性
1、Partition
RDD将数据分成多个分区，交给不同的Task计算，Partition记录了不同分区的数据的地址。每个分区的数据为一个Block，由BlockManager管理

2、一个计算每个分区的函数
3、RDD之间的依赖关系Lineage
4、分片函数
5、一个存储每个Partition的优先位置的列表。以“移动数据不如移动计算”的原则，这个列表可以在Spark计算某个Partition的时候，在存储Partition的节点上计算。
RDD之间的关系可以从两个角度理解：
1、父parent是谁？
2、依赖父parent哪些partition，从这个角度依赖可以分为宽依赖和窄依赖，具体可以看下《Spark大数据处理》读书笔记——容错机制

相关文章

《Spark技术内幕》读书笔记——RDD源码
主要属性1、PartitionRDD将数据分成多个分区，交给不同的Task计算，Partition记录了不同分区的...
Spark Core
1.spark core1.1 学习方法 1.2 什么是RDD 1.3 源码解释 1.3.1 源码中体现RDD的五...
Spark 控制算子源码解析
Spark 控制算子源码解析 RDD persist() 算子使用指定的level来标记RDD进行存储。可以看...
Spark源码之DAGScheduler
Spark源码之DAGScheduler介绍篇 Spark Application中的RDD经过一系列的Trans...
Spark源码分析：DAGScheduler
Spark源码分析：DAGScheduler 概述在RDD一文中提到：定义RDD之后，程序员就可以在动作（注：...
Spark源码解析：RDD
0x00 前言本篇是Spark源码解析的第一篇，主要通过源码分析Spark设计中最重要的一个概念——RDD。本...
spark技术
spark技术 1.spark core 基于RDD提供操作接口，利用DAG进行统一的任务规划 2.spark S...
Spark RDD Api使用指南
在Spark快速入门-RDD文章中学了spark的RDD。spark包含转换和行动操作。在进行spark程...
深入理解Spark 2.1 Core （二）：DAG调度器的原理
上一篇《深入理解Spark 2.0 （一）：RDD实现及源码分析》的5.2 Spark任务调度器我们省略过去了，...
大数据技术，Spark之RDD，RDD超详细讲解（二）
一、RDD的特性 Spark之所以成为目前比较主流的大数据处理技术，其中RDD的特性和机制占到很大比重，没有RDD...

网友评论

本文标题：《Spark技术内幕》读书笔记——RDD源码

本文链接：https://www.haomeiwen.com/subject/sbmwqrtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|《Spark技术内幕》读书笔记——RDD源码|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！