spark结构化流--kafka

spark结构化流--kafka

作者: Gilegamesh | 来源:发表于2017-09-05 15:42 被阅读0次

spark结构化流--kafka
（基于最新的Kafka version 0.10.2 new
Kafka+Spark Streaming如何保证exactly
spark-streaming中使用spark-sql做关联查询
大数据工具
Spark 的createDstream和createDirec
2020-07-20
spark streaming 集成kafka0.10 offs
Structured Streaming概述
spark streaming + kafka

我们的场景是通过spark-streaming读取kafka数据，实时持久化到hdfs上。并按day和hour分区。就像这种格式：

kafka：0.10.2.0

hdfs：2.7.3

spark：2.2.0

核心代码如下：

repartition是由于生成文件数量过多，合理合并分区能减少。如果用coalesce会导致任务不能并行（如果是1，就那就只有一个node运行）。

checkpoint能保证任务挂掉，在kafka数据没有过期前重启能继续正确的运行。但是超过时间会报错Kafka OffSetOutOfRange而导致失败。如果此时你删掉checkpoint dir，任务能正常执行但是会发现它并不会去读取kafka分区的数据。这是因为还有一个地方记录着你的流式处理元信息。

它记录着你流式批次信息，如果不删除，spark-streaming会认为你一直在提交过期的job，导致数据不被处理。

当然，这只是结构化流一点使用心得。更多的文档信息在https://spark.apache.org/docs/latest/structured-streaming-kafka-integration.html

相关文章

spark结构化流--kafka
我们的场景是通过spark-streaming读取kafka数据，实时持久化到hdfs上。并按day和hour分区...
（基于最新的Kafka version 0.10.2 new
本文基于Spark2.1.0、Kafka 0.10.2、Scala 2.11.8版本背景： Kafka做为一款流...
Kafka+Spark Streaming如何保证exactly
在Kafka、Storm、Flink、Spark Streaming等分布式流处理系统中（没错，Kafka本质上是...
spark-streaming中使用spark-sql做关联查询
实现：首先基于topic，创建出kafka的DStream流 val sparkConf = new Spark...
大数据工具
数据采集 flume 消息中间件 kafka rocketmq 批处理 spark flink batch 流处理...
Spark 的createDstream和createDirec
spark读取kafka数据流提供了两种方式createDstream和createDirectStream。两...
2020-07-20
spark streaming 结构化流批量处理为主 flink 流为主，批量处理只是流处理中的一个特例 sto...
spark streaming 集成kafka0.10 offs
spark streaming+kafka 0.10集成默认spark partition和kafka pa...
Structured Streaming概述
简介 Structured Streaming （结构化流）是一种基于 Spark SQL 引擎构建的可扩展且容错...
spark streaming + kafka
spark streaming + kafka 官网下载spark spark-2.0.1-bin-hadoop2...

网友评论

本文标题：spark结构化流--kafka

本文链接：https://www.haomeiwen.com/subject/usdoqxtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|spark结构化流--kafka|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！