spark streaming杂记

spark streaming杂记

作者: cclucc | 来源:发表于2019-11-15 19:48 被阅读0次

checkpoint：

checkpoint都放啥子？

Metadata checkpointing : 保存流计算的定义信息到容错存储系统如 HDFS 中。这用来恢复应用程序中运行 worker 的节点的故障。
元数据包括 :
Configuration : 创建 Spark Streaming 应用程序的配置信息。
DStream operations : 定义 Streaming 应用程序的操作集合。
Incomplete batches : 操作存在队列中的未完成的批。
Data checkpointing : 保存生成的 RDD 到可靠的存储系统中，这在有状态 transformation（如结合跨多个批次的数据）中是必须的。在这样一个 transformation 中，生成的 RDD 依赖于之前批的 RDD，随着时间的推移，这个依赖链的长度会持续增长。在恢复的过程中，为了避免这种无限增长。有状态的 transformation 的中间 RDD 将会定时地存储到可靠存储系统中，以截断这个依赖链。

checkpoint啥子时候写

checkpoint啥子时候读？

时间：checkpoint是在action动作计算结束之后执行。

在Spark Streaming整个架构体系里面，数据接收其实最为关键的一个流程，在数据接收完之后，后面的数据处理上面就是复用Spark Core的数据处理架构

spark streaming with kafka

recivers
spark partition与kafka partition无关。
spark 获取revicer及对应prefreLocations。
获取可以使用的executor，makeReciveRDD，编写rdd compute方法（startReceiverFunc），submit rdd
dirct
Spark Streaming会创建与 Kafka partitions 相同数量的 paritions 的 RDD，RDD 的 partition与 Kafka 的 partition 一一对应。
保证事务性。

spark streaming 保证事物一致性

确认能否允许少量数据不一致，不能的话，可以通过

1、可以利用事务性数据库来保证事务一致性，如mysql/redis
2、自己设置数据处理+checkpoint为原子性操作实现

相关文章

网友评论

本文标题：spark streaming杂记

本文链接：https://www.haomeiwen.com/subject/xdekuctx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|spark streaming杂记|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！