streaming全局变量和checkpiont

streaming全局变量和checkpiont

作者: 风暴之芽 | 来源:发表于2019-02-06 21:15 被阅读0次

streaming全局变量和checkpiont
2018-01-31 Hadoop Streaming 编程
The world beyond batch-Streaming
Java-Spark系列7-Spark streaming介绍
3. 通过案例对SparkStreaming 透彻理解三板斧之三
10 Spark Streaming
关于spark实时计算的checkpoint
通过案例对spark streaming透彻理解三板斧之三
Spark Streaming 基本概念及操作
Spark Streaming

全局变量算子是updataStateByKey，需要设置checkpiont机制。

checkpoint的意思就是建立检查点,类似于快照,例如在spark计算里面计算流程DAG特别长,服务器需要将整个DAG计算完成得出结果,但是如果在这很长的计算流程中突然中间算出的数据丢失了,spark又会根据RDD的依赖关系从头到尾计算一遍,这样子就很费性能,当然我们可以将中间的计算结果通过cache或者persist放到内存或者磁盘中,但是这样也不能保证数据完全不会丢失,存储的这个内存出问题了或者磁盘坏了,也会导致spark从头再根据RDD计算一遍,所以就有了checkpoint,其中checkpoint的作用就是将DAG中比较重要的中间数据做一个检查点将结果存储到一个高可用的地方(通常这个地方就是HDFS里面)

说到checkpoint就得说说RDD的依赖

比如我们计算wordcount的时候:

sc.textFile("hdfspath").flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).saveAsTextFile("hdfspath")

1.在textFile读取hdfs的时候就会先创建一个HadoopRDD,其中这个RDD是去读取hdfs的数据key为偏移量value为一行数据,因为通常来讲偏移量没有太大的作用所以然后会将HadoopRDD转化为MapPartitionsRDD,这个RDD只保留了hdfs的数据

2.flatMap 产生一个RDD MapPartitionsRDD

3.map 产生一个RDD MapPartitionsRDD

4.reduceByKey 产生一个RDD ShuffledRDD

5.saveAsTextFile 产生一个RDD MapPartitionsRDD

可以根据查看RDD的依赖:

怎么建立checkpoint

首先需要用sparkContext设置hdfs的checkpoint的目录(如果不设置使用checkpoint会抛出异常:throw new SparkException(“Checkpoint directory has not been set in the SparkContext”):

执行了上面的代码,hdfs里面会创建一个目录:

然后执行checkpoint

发现hdfs中还是没有数据,通过collect然后hdfs就有数据了,说明checkpoint也是个transformation的算子

但是执行的时候相当于走了两次流程,sum的时候前面计算了一遍,然后checkpoint又会计算一次,所以一般我们先进行cache然后做checkpoint就会只走一次流程,checkpoint的时候就会从刚cache到内存中取数据写入hdfs中,如下:

其中作者也说明了,在checkpoint的时候强烈建议先进行cache,并且当你checkpoint执行成功了,那么前面所有的RDD依赖都会被销毁,如下:

/**

* Mark this RDD for checkpointing. It will be saved to a file inside the checkpoint

* directory set with `SparkContext#setCheckpointDir` and all references to its parent

* RDDs will be removed. This function must be called before any job has been

* executed on this RDD. It is strongly recommended that this RDD is persisted in

* memory, otherwise saving it on a file will require recomputation.

*/

原文：https://blog.csdn.net/qq_20641565/article/details/76223002

相关文章

streaming全局变量和checkpiont
全局变量算子是updataStateByKey，需要设置checkpiont机制。 checkpoint的意思就是...
2018-01-31 Hadoop Streaming 编程
1. Hadoop Streaming 编程2. 使用Python和Hadoop Streaming编写MapRe...
The world beyond batch-Streaming
前言 Tyler Akidau 文章的原文和译文阅读。主要介绍了Streaming的世界。包括streaming是...
Java-Spark系列7-Spark streaming介绍
一.Spark streaming介绍 1.1 Spark streaming简介 Spark Streaming...
3. 通过案例对SparkStreaming 透彻理解三板斧之三
关于Job 理解Spark Streaming的Job的整个架构和运行机制对于精通Spark Streaming是...
10 Spark Streaming
Spark Streaming 第一：Spark Streaming基本原理 Spark Streaming的核心...
关于spark实时计算的checkpoint
怪就怪之前之前对spark streaming和structed streaming不熟悉，因为之前的实时计算都在...
通过案例对spark streaming透彻理解三板斧之三
通过案例对spark streaming透彻理解三板斧之三：解密Spark Streaming运行机制和框架 ...
Spark Streaming 基本概念及操作
1 Spark Streaming Spark Streaming is an extension of the ...
Spark Streaming
目录一.Spark Streaming基础1.Spark Streaming简介2.Spark Streaming...

网友评论

本文标题：streaming全局变量和checkpiont

本文链接：https://www.haomeiwen.com/subject/ekvisqtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|streaming全局变量和checkpiont|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！