美文网首页
spark streaming 与kafaka结合 低阶 高阶a

spark streaming 与kafaka结合 低阶 高阶a

作者: 毛瓜 | 来源:发表于2016-11-30 17:14 被阅读0次

    1. createStream会使用 Receiver;而createDirectStream不会,数据会通过driver接收。

    2.createStream使用 Receiver 源源不断的接收数据并把数据交给 ReceiverSupervisor 处理最终存储为 blocks 作为 RDD 的输入,从 kafka 拉取数据与计算消费数据相互独立;而createDirectStream会在每个 batch 拉取数据并就地消费,到下个 batch 再次拉取消费,周而复始,从 kafka 拉取数据与计算消费数据是连续的,没有独立开

    createStream 一般是一个inputstreaming 对应一个receiver,receiver其实就是一个消费者进程,你可以设置多个线程来消费,或者create多个inputstreaming 最后union就行。

    3.createStream中创建的KafkaInputDStream 每个 batch 所对应的 RDD 的 partition 不与 Kafka partition 一一对应;而createDirectStream中创建的 DirectKafkaInputDStream 每个 batch 所对应的 RDD 的 partition 与 Kafka partition 一一对应。

    相关文章

      网友评论

          本文标题:spark streaming 与kafaka结合 低阶 高阶a

          本文链接:https://www.haomeiwen.com/subject/gvytmttx.html