美文网首页
Spark Streaming:基础

Spark Streaming:基础

作者: Movle | 来源:发表于2020-05-17 20:28 被阅读0次

    目录
        1.Spark Streaming简介
        2.Spark Streaming的特点
        3.Spark Streaming的内部结构

    1.Spark Streaming简介

        Spark Streaming是核心Spark API的扩展,可实现可扩展、高吞吐量、可容错的实时数据流处理。数据可以从诸如Kafka,Flume,Kinesis或TCP套接字等众多来源获取,并且可以使用由高级函数(如map,reduce,join和window)开发的复杂算法进行流数据处理。最后,处理后的数据可以被推送到文件系统,数据库和实时仪表板。而且,您还可以在数据流上应用Spark提供的机器学习和图处理算法。

    2.Spark Streaming的特点

    (1)易用:集成在Spark中
    (2)容错性:底层RDD,RDD本身就具备容错机制。
    (3)支持多种编程语言:Java Scala Python

    3.Spark Streaming的内部结构

        在内部,它的工作原理如下。Spark Streaming接收实时输入数据流,并将数据切分成批,然后由Spark引擎对其进行处理,最后生成“批”形式的结果流。

        Spark Streaming将连续的数据流抽象为discretizedstream或DStream。在内部,DStream 由一个RDD序列表示。

    相关文章

      网友评论

          本文标题:Spark Streaming:基础

          本文链接:https://www.haomeiwen.com/subject/yafeohtx.html