美文网首页
Spark Streaming入门

Spark Streaming入门

作者: 机灵鬼鬼 | 来源:发表于2019-05-30 11:09 被阅读0次

    概述

    官网学习文档:http://spark.apache.org/docs/latest/streaming-programming-guide.html

    框架特点:高吞吐量、高可用、可扩展、实时流处理。

    将不同的数据源的数据经过Spark Streaming处理之后将结果输出到外部文件系统(hdfs、db等)

    低延时、能从错误中高效的恢复,能运行在成百上千的节点上,能够将批处理、机器学习、图计算等子框架和Spark Streaming综合起来使用。

    他会把传递进来的输入数据,拆分成多个批次,然后交由spark 引擎处理,得到最终的数结果,如下图:

    spark streaming在spark生态的定位

    应用场景

    还有很多场景

    电商行业

    电商浏览数据的实时流处理,可以很快根据用户的浏览行为做出反应,进行精准推荐,提升转化率,增加销售。

    金融风控行业

    可以对交易行为做实时数据分析和跟踪,一旦触犯风控规则可以及时做出限制。

    系统监控

    比如我们的防火墙,负载均衡设备,以及后台应用服务,通过对他们运行日志的实时计算,就可以完成对我们各种设备的健康状况做出实时监控和了解。

    流处理和批处理综合使用 流处理和模型处理 流处理和spark sql综合使用的,是非常常用的用法

    Spark Streaming的发展史

    从词频统计功能来入门Spark Streaming

    使用两种任务提交方式。

    Spark-submit执行

    Spark-shell执行

    从Github上下载spark的源码

    https://github.com/apache/spark

    咱们学习Spark Streaming最好先去研究学习下他的样例,下图是spark 源码当中的样例,有多种语言,java、scala、python 、r等等。你可以按需参考。

    相关文章

      网友评论

          本文标题:Spark Streaming入门

          本文链接:https://www.haomeiwen.com/subject/sbrytctx.html