Spark Streaming使用Kafka保证数据零丢失

作者: jacksu在简书 | 来源:发表于2016-01-16 17:06 被阅读2567次

Spark Streaming使用Kafka保证数据零丢失
Spark Streaming kafka 实现数据零丢失的几种
sparkStreaming读取kafka中数据时，如何有效的对
Spark-SparkStreaming介绍
Spark Streaming读写Kafka，将offset写入
[flow]Kafka+Spark Streaming+Redi
SparkStreaming写Hbase速度提升5倍
Streaming metadate checkpoint详解
【offset管理策略】Spark Streaming消费Kaf
Spark Streaming管理Kafka偏移量

源文件放在github，随着理解的深入，不断更新，如有谬误之处，欢迎指正。原文链接https://github.com/jacksu/utils4s/blob/master/spark-knowledge/md/spark_streaming使用kafka保证数据零丢失.md

spark streaming从1.2开始提供了数据的零丢失，想享受这个特性，需要满足如下条件：

1.数据输入需要可靠的sources和可靠的receivers

2.应用metadata必须通过应用driver checkpoint

3.WAL（write ahead log）

可靠的sources和receivers

spark streaming可以通过多种方式作为数据sources（包括kafka），输入数据通过receivers接收，通过replication存储于spark中（为了faultolerance，默认复制到两个spark executors），如果数据复制完成，receivers可以知道（例如kafka中更新offsets到zookeeper中）。这样当receivers在接收数据过程中crash掉，不会有数据丢失，receivers没有复制的数据，当receiver恢复后重新接收。

image

metadata checkpoint

可靠的sources和receivers，可以使数据在receivers失败后恢复，然而在driver失败后恢复是比较复杂的，一种方法是通过checkpoint metadata到HDFS或者S3。metadata包括：

configuration
code
一些排队等待处理但没有完成的RDD（仅仅是metadata，而不是data）

image

这样当driver失败时，可以通过metadata checkpoint，重构应用程序并知道执行到那个地方。

数据可能丢失的场景

可靠的sources和receivers，以及metadata checkpoint也不可以保证数据的不丢失，例如：

两个executor得到计算数据，并保存在他们的内存中
receivers知道数据已经输入
executors开始计算数据
driver突然失败
driver失败，那么executors都会被kill掉
因为executor被kill掉，那么他们内存中得数据都会丢失，但是这些数据不再被处理
executor中的数据不可恢复

WAL

为了避免上面情景的出现，spark streaming 1.2引入了WAL。所有接收的数据通过receivers写入HDFS或者S3中checkpoint目录，这样当driver失败后，executor中数据丢失后，可以通过checkpoint恢复。

image

At-Least-Once

尽管WAL可以保证数据零丢失，但是不能保证exactly-once，例如下面场景：

Receivers接收完数据并保存到HDFS或S3
在更新offset前，receivers失败了

image
Spark Streaming以为数据接收成功，但是Kafka以为数据没有接收成功，因为offset没有更新到zookeeper
随后receiver恢复了
从WAL可以读取的数据重新消费一次，因为使用的kafka High-Level消费API，从zookeeper中保存的offsets开始消费

WAL的缺点

通过上面描述，WAL有两个缺点：

降低了receivers的性能，因为数据还要存储到HDFS等分布式文件系统
对于一些resources，可能存在重复的数据，比如Kafka，在Kafka中存在一份数据，在Spark Streaming也存在一份（以WAL的形式存储在hadoop API兼容的文件系统中）

Kafka direct API

为了WAL的性能损失和exactly-once，spark streaming1.3中使用Kafka direct API。非常巧妙，Spark driver计算下个batch的offsets，指导executor消费对应的topics和partitions。消费Kafka消息，就像消费文件系统文件一样。

image

1.不再需要kafka receivers，executor直接通过Kafka API消费数据

2.WAL不再需要，如果从失败恢复，可以重新消费

3.exactly-once得到了保证，不会再从WAL中重复读取数据

总结

主要说的是spark streaming通过各种方式来保证数据不丢失，并保证exactly-once，每个版本都是spark streaming越来越稳定，越来越向生产环境使用发展。

参考

spark-streaming
Recent Evolution of Zero Data Loss Guarantee in Spark Streaming With Kafka

Spark Streaming使用Kafka保证数据零丢失
源文件放在github，随着理解的深入，不断更新，如有谬误之处，欢迎指正。原文链接https://github.c...
Spark Streaming kafka 实现数据零丢失的几种
在使用spark streaming消费kafka数据时，程序异常中断下发现会有数据丢失的情况。下文将说明如何避免...
sparkStreaming读取kafka中数据时，如何有效的对
在spark streaming读取kafka的数据中，spark streaming提供了两个接口读取kafka...
Spark-SparkStreaming介绍
Spark Streaming用于流式数据的处理。Spark Streaming支持的数据源很多，例如：kafka...
Spark Streaming读写Kafka，将offset写入
摘要： Spark Streaming， Kafka，zookeeper Scala调用Kafka API发送数据...
[flow]Kafka+Spark Streaming+Redi
Spark 实战, 第 2 部分:使用 Kafka 和 Spark Streaming 构建实时数据处理系统htt...
SparkStreaming写Hbase速度提升5倍
业务背景：使用Spark 、streaming从kafka读取数据后写入HBase。kafkaDStream是从k...
Streaming metadate checkpoint详解
spark streaming的checkpoint目的是保证长时间运行的任务在意外挂掉后保证数据不丢失，chec...
【offset管理策略】Spark Streaming消费Kaf
摘要：offset管理，Spark Streaming，Kafka Spark Streaming offset的...
Spark Streaming管理Kafka偏移量
前言为了让Spark Streaming消费kafka的数据不丢数据，可以创建Kafka Direct DStr...

网友评论

博弈史密斯:多谢，很有帮助

郭俊Jason:博主，请问你的这个图是用什么画的？

jacksu在简书:@郭俊Jason 不是我画的，翻译引用别人原文的

b90c5f0559bb:我承认原文写的很不错，但这文章翻译真不咋的。后来我去看英文原文的。

jacksu在简书:@Spark技术博客英文好，当然读英文最好，这只是我的个人理解，也不是完全的翻译。

6520d9cc6a7b:图不错翻译得不错

e3cadb176d00:收藏看看，最近要用

Spark Streaming使用Kafka保证数据零丢失

可靠的sources和receivers

metadata checkpoint

数据可能丢失的场景

WAL

At-Least-Once

WAL的缺点

Kafka direct API

总结

参考

相关文章

Spark Streaming使用Kafka保证数据零丢失

Spark Streaming kafka 实现数据零丢失的几种

sparkStreaming读取kafka中数据时，如何有效的对

Spark-SparkStreaming介绍

Spark Streaming读写Kafka，将offset写入

[flow]Kafka+Spark Streaming+Redi

SparkStreaming写Hbase速度提升5倍

Streaming metadate checkpoint详解

【offset管理策略】Spark Streaming消费Kaf

Spark Streaming管理Kafka偏移量

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

Spark之路

Spark慢慢来

spark

首页投稿（暂停使用，暂停投稿）

程序员

@IT·互联网

工作专题

大数据