美文网首页程序员
Spark Sreaming实战(六)-实时流处理

Spark Sreaming实战(六)-实时流处理

作者: JavaEdge | 来源:发表于2019-05-27 16:32 被阅读14次

    1 概述

    1.1 官网文档地址


    Spark Streaming是core Spark API的扩展,可实现实时数据流的可扩展,高吞吐量,容错流处理。 数据可以从许多来源(如Kafka,Flume,Kinesis或TCP套接字)中获取,并且可以使用以高级函数(如map,reduce,join和window)表示的复杂算法进行处理。 最后,处理后的数据可以推送到文件系统,数据库和实时仪表板。 实际上,您可以在数据流上应用Spark的机器学习和图形处理算法。

    在内部,它的工作原理如下。 Spark Streaming接收实时输入数据流并将数据分成批处理,然后由Spark引擎处理以批量生成最终结果流。


    Spark Streaming提供称为离散流或DStream的高级抽象,表示连续的数据流。 DStream可以来自Kafka,Flume和Kinesis等源的输入数据流创建,也可以通过在其他DStream上应用高级操作来创建。 在内部,DStream表示为一系列RDD。

    相关文章

      网友评论

        本文标题:Spark Sreaming实战(六)-实时流处理

        本文链接:https://www.haomeiwen.com/subject/xzwhtctx.html