美文网首页读书想法
第一章 spark-streaming的概述

第一章 spark-streaming的概述

作者: 花雪白芷 | 来源:发表于2021-09-12 20:17 被阅读0次

    section 1 spark-streaming是什么

    //数据处理的方式角度

    流式数据处理

    批量数据处理

    //数据处理延迟的长短

    实时数据处理:毫秒级别

    离线数据处理:小时或天

    Sparkstreaming 是一个准实时(秒,分),微批次处理的框架

    和 Spark 基于 RDD 的概念很相似,Spark Streaming 使用离散化流(discretized stream)作为抽

    象表示,叫作 DStream。DStream 是随时间推移而收到的数据的序列。在内部,每个时间区间收

    到的数据都作为 RDD 存在,而 DStream 是由这些 RDD 所组成的序列(因此得名“离散化”)。所以

    简单来将,DStream 就是对 RDD 在实时数据处理场景的一种封装。

    section 2 spark-streaming 的架构

    为了更好的协调数据接收速率与资源处理能力,1.5 版本开始 Spark Streaming 可以动态控制数据接收速率来适配集群数据处理能力。

    背压机制(即 Spark Streaming Backpressure): 根据JobScheduler 反馈作业的执行信息来动态调整 Receiver 数据接收率。

    通过属性“spark.streaming.backpressure.enabled”来控制是否启用 backpressure 机制,默认值false,即不启用。

    相关文章

      网友评论

        本文标题:第一章 spark-streaming的概述

        本文链接:https://www.haomeiwen.com/subject/wcmtgltx.html