美文网首页
Spark Streaming入门

Spark Streaming入门

作者: 机灵鬼鬼 | 来源:发表于2019-05-30 11:09 被阅读0次

概述

官网学习文档:http://spark.apache.org/docs/latest/streaming-programming-guide.html

框架特点:高吞吐量、高可用、可扩展、实时流处理。

将不同的数据源的数据经过Spark Streaming处理之后将结果输出到外部文件系统(hdfs、db等)

低延时、能从错误中高效的恢复,能运行在成百上千的节点上,能够将批处理、机器学习、图计算等子框架和Spark Streaming综合起来使用。

他会把传递进来的输入数据,拆分成多个批次,然后交由spark 引擎处理,得到最终的数结果,如下图:

spark streaming在spark生态的定位

应用场景

还有很多场景

电商行业

电商浏览数据的实时流处理,可以很快根据用户的浏览行为做出反应,进行精准推荐,提升转化率,增加销售。

金融风控行业

可以对交易行为做实时数据分析和跟踪,一旦触犯风控规则可以及时做出限制。

系统监控

比如我们的防火墙,负载均衡设备,以及后台应用服务,通过对他们运行日志的实时计算,就可以完成对我们各种设备的健康状况做出实时监控和了解。

流处理和批处理综合使用 流处理和模型处理 流处理和spark sql综合使用的,是非常常用的用法

Spark Streaming的发展史

从词频统计功能来入门Spark Streaming

使用两种任务提交方式。

Spark-submit执行

Spark-shell执行

从Github上下载spark的源码

https://github.com/apache/spark

咱们学习Spark Streaming最好先去研究学习下他的样例,下图是spark 源码当中的样例,有多种语言,java、scala、python 、r等等。你可以按需参考。

相关文章

网友评论

      本文标题:Spark Streaming入门

      本文链接:https://www.haomeiwen.com/subject/sbrytctx.html