
概述
官网学习文档:http://spark.apache.org/docs/latest/streaming-programming-guide.html
框架特点:高吞吐量、高可用、可扩展、实时流处理。
将不同的数据源的数据经过Spark Streaming处理之后将结果输出到外部文件系统(hdfs、db等)

低延时、能从错误中高效的恢复,能运行在成百上千的节点上,能够将批处理、机器学习、图计算等子框架和Spark Streaming综合起来使用。
他会把传递进来的输入数据,拆分成多个批次,然后交由spark 引擎处理,得到最终的数结果,如下图:


应用场景

电商行业
电商浏览数据的实时流处理,可以很快根据用户的浏览行为做出反应,进行精准推荐,提升转化率,增加销售。
金融风控行业
可以对交易行为做实时数据分析和跟踪,一旦触犯风控规则可以及时做出限制。
系统监控
比如我们的防火墙,负载均衡设备,以及后台应用服务,通过对他们运行日志的实时计算,就可以完成对我们各种设备的健康状况做出实时监控和了解。




Spark Streaming的发展史

从词频统计功能来入门Spark Streaming
使用两种任务提交方式。
Spark-submit执行
Spark-shell执行
从Github上下载spark的源码
https://github.com/apache/spark
咱们学习Spark Streaming最好先去研究学习下他的样例,下图是spark 源码当中的样例,有多种语言,java、scala、python 、r等等。你可以按需参考。


网友评论