如何理解spark中血统(lineage)概念

如何理解spark中血统(lineage)概念

作者: scott_alpha | 来源:发表于2019-09-30 14:41 被阅读0次

如何理解spark中血统(lineage)概念
Java Spark 简单示例（九） CheckPoint 检查
SparkCore之RDD依赖关系
Spark面试题
『 Spark 』2. spark 基本概念解析
spark概念理解
coalesce()方法和repartition()方法的区别
Spark SQL重点知识总结
Spark Stream对接kafka 源码分析
Spark Lineage(Narrow/Wide Depend

RDD在lineage方面主要分为两种narrow dependency和wide dependency来解决数据容错时的高效性。
narrow dependency是指父RDD的每个分区最多被子RDD的一个分区使用，表现为一个父RDD的分区对应一个子RDD的一个分区或者多个父RDD的分区对应一个子RDD的分区，也就是说一份父RDD的分区不能对应多个子RDD的分区。
wide dependency是指子RDD的分区依赖多个父RDD的分区，也就是说存在一个父RDD的分区对应多个子RDD的分区。
对于wide dependency，这种输入和输出不在同一个节点上，lineage方法对于输入节点完好，输出节点宕机时，通过重新计算，这种方法容错是有效的，否则无效，需要向其祖先追溯是否可以重试。narrow dependency对数据的重算开销远小于wide dependency。

相关文章

如何理解spark中血统(lineage)概念
RDD在lineage方面主要分为两种narrow dependency和wide dependency来解决数据...
Java Spark 简单示例（九） CheckPoint 检查
大数据学习交流微信群 Spark 采用Lineage（书里叫血统）和CheckPoint（检查点）两种方式来解决分...
SparkCore之RDD依赖关系
Lineage RDD只支持粗粒度转换，即在大量记录上执行的单个操作。将创建RDD的一系列Lineage（血统）记...
Spark面试题
1. spark如何实现容错性? spark的容错性有2个手段, 检查点和RDD血统检查点: checkpoin...
『 Spark 』2. spark 基本概念解析
原文：『 Spark 』2. spark 基本概念解析写在前面本系列是综合了自己在学习spark过程中的理解记...
spark概念理解
1. Application：Spark 的应用程序，用户提交后，Spark为App分配资源，将程序转换并执行，其...
coalesce()方法和repartition()方法的区别
coalesce()方法和repartition()方法的区别 Spark的RDD是分区的，经过lineage一系...
Spark SQL重点知识总结
一、Spark SQL的概念理解 Spark SQL是spark套件中一个模板，它将数据的计算任务通过SQL的形式...
Spark Stream对接kafka 源码分析
spark RDD理解 DirectInputStream 序言本文会讲解Spark Stream是如何与Kaf...
Spark Lineage(Narrow/Wide Depend
Lineage 利用内存加快数据加载,在众多的其它的In-Memory类数据库或Cache类系统中也有实现，Spa...

网友评论

本文标题：如何理解spark中血统(lineage)概念

本文链接：https://www.haomeiwen.com/subject/nwacpctx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|如何理解spark中血统(lineage)概念|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！