Spark Streaming管理Kafka偏移量

作者: BIGUFO | 来源:发表于2017-07-21 09:52 被阅读569次

【offset管理策略】Spark Streaming消费Kaf
如何管理Spark Streaming消费Kafka的偏移量（二
如何管理Spark Streaming消费Kafka的偏移量（三
自己维护kafka_offset中的坑
Spark Streaming管理Kafka偏移量
sparkStreaming读取kafka中数据时，如何有效的对
如何管理Spark Streaming消费Kafka的偏移量（一
spark streaming 集成kafka0.10 offs
Spark Streaming之flume,kafka集成
spark streaming + kafka

前言

为了让Spark Streaming消费kafka的数据不丢数据，可以创建Kafka Direct DStream，由Spark Streaming自己管理offset，并不是存到zookeeper。启用Spark Streaming的 checkpoints是存储偏移量的最简单方法，因为它可以在Spark的框架内轻松获得。 checkpoints将应用程序的状态保存到HDFS，以便在故障时可以恢复。如果发生故障，Spark Streaming应用程序可以从checkpoints偏移范围读取消息。

但是，Spark Streaming checkpoints在应用程序修改后由于从checkpoint反序列化失败而无法恢复，因此不是非常可靠，特别是如果您将此机制用于关键生产应用程序，另外，基于zookeeper的offset可视化工具将无法使用。我们不建议通过Spark checkpoints来管理偏移量。因此本文将手动存储offset到zookeeper，完全自我掌控offset。

从ZK获取offset

创建ZKClient，API有好几个，最后用带序列化参数的，不然保存offset的时候容易出现乱码。

查看该groupId在该topic下是否有消费记录，如果有，肯定在对应目录下会有分区数，children大于0则有记录。

在有记录的情况下，去拿具体的offset

注意红色线框部分，在zookeeper里存储的offset有可能在kafka里过期了，所以要拿kafka最小的offset和zookeeper里的offset比较一下。

接下来就可以创建Kafka Direct DStream了，前者是从zookeeper拿的offset，后者是直接从最新的开始（第一次消费）。

最后就是处理RDD，保存Offset。

【offset管理策略】Spark Streaming消费Kaf
摘要：offset管理，Spark Streaming，Kafka Spark Streaming offset的...
如何管理Spark Streaming消费Kafka的偏移量（二
上篇文章，讨论了在spark streaming中管理消费kafka的偏移量的方式，本篇就接着聊聊上次说升级失败的...
如何管理Spark Streaming消费Kafka的偏移量（三
前面的文章已经介绍了在spark streaming集成kafka时，如何处理其偏移量的问题，由于spark st...
自己维护kafka_offset中的坑
上篇文章，讨论了在spark streaming中如何自己管理消费kafka的偏移量的方式，这里在跟大家说一下这...
Spark Streaming管理Kafka偏移量
前言为了让Spark Streaming消费kafka的数据不丢数据，可以创建Kafka Direct DStr...
sparkStreaming读取kafka中数据时，如何有效的对
在spark streaming读取kafka的数据中，spark streaming提供了两个接口读取kafka...
如何管理Spark Streaming消费Kafka的偏移量（一
本篇我们先从理论的角度聊聊在Spark Streaming集成Kafka时的offset状态如何管理。 spark...
spark streaming 集成kafka0.10 offs
spark streaming+kafka 0.10集成默认spark partition和kafka pa...
Spark Streaming之flume,kafka集成
spark streaming+kafka integration http://spark.apache.org...
spark streaming + kafka
spark streaming + kafka 官网下载spark spark-2.0.1-bin-hadoop2...

Spark Streaming管理Kafka偏移量

前言

从ZK获取offset

相关文章

【offset管理策略】Spark Streaming消费Kaf

如何管理Spark Streaming消费Kafka的偏移量（二

如何管理Spark Streaming消费Kafka的偏移量（三

自己维护kafka_offset中的坑

Spark Streaming管理Kafka偏移量

sparkStreaming读取kafka中数据时，如何有效的对

如何管理Spark Streaming消费Kafka的偏移量（一

spark streaming 集成kafka0.10 offs

Spark Streaming之flume,kafka集成

spark streaming + kafka

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

spark生态系统

spark

消息中间件

Spark 应用

Spark之路

Spark在简书