美文网首页
Spark Streaming-执行过程

Spark Streaming-执行过程

作者: raincoffee | 来源:发表于2017-07-14 18:52 被阅读165次

Spark Streaming

Spark Streaming 执行过程

Spark 内部实现遵循以下步骤:

  • 主要部件的初始化过程
  • 网络侧接收到的数据如何存储到内存
  • 如何根据存储下来的数据生成相应的spark job

下面我们以wordcount为例说明。

1. streamingContext初始化过程

val ssc= new StreamingContext("local[2]","Networkwordcount",Seconds(1))

Streamingcontext的参数:

  • sparkcontext,任务最重通过sparkcontext借口提交到spark cluster运行
  • checkpoint 检查点
  • duration 根据多久时长常见一个batch

利用初始化的ssc生成dstream。

val lines=ssc.sockettextStream("localhost",9999)

sockettextstream返回值是dstream

socketinputdstream的实现中,最主要就是定义getreceiver函数,在getreceiver函数中制作了一件事情,即产生一个新的socketreceiver。

创建完socketreceiver之后,接下来的工作就是对dstream进行一系列的操作转换。对Streaming的实际应用开发也集中在这样的一个阶段。

val words=lines.flatmap(_.split(" "))
import org.apache.spark.streaming.streamingContext._
val pairs=words.map(word=>(word,1))
val wordcounts=pairs.reduceByKey(_+_)
wordcounts.print()

在上述的转换过程中,print属于输出操作。

共有如下输出操作

  • print
  • foreachrdd
  • saveasobjectfiles
  • saveastextfiles
  • saveashadoopfiles

上述设计的输出操作其实最后都会调用到foreachdstaream,foreachdstream不同于dstream的地方在于冲在了generatejob方法。

最后就是提交。

ssc.start()
ssc.awaitTermination()

2. 数据接收

ssc.start触及的运行逻辑。调用jobscheduler.start,由job scheduler一次启动一下三大功能模块。

  • 监控
  • 数据接收
  • 定期生成spark job的jobgenerator

3. 数据处理

如何将输出和输入绑定一起,依赖于dstreamgraph,dstreamgraph记录输入的stream和输出的stream。

窗口操作

滑动窗口:

在任何基于窗口的操作都需要制定两个参数,一个是窗口总的长度,另一个是滑动窗口的间隔。需要注意的是这两个参数的值必须是批量处理时间间隔的倍数。

比如想知道过去30s某个单词出现的次数,每10s更新一次结果,可以使用如下代码:

val windowedwordcounts=pairs.reduceBykeyandWindow(a:int,b:int)=>(a+b),seconds(30),seconds(10))

容错性分析

相关文章

  • Spark Streaming-执行过程

    Spark Streaming Spark Streaming 执行过程 Spark 内部实现遵循以下步骤: 主要...

  • spark 学习笔记

    Spark学习笔记 Data Source->Kafka->Spark Streaming->Parquet->S...

  • Spark Streaming-介绍

    介绍 许多应用需要处理及时收到的数据,Spark Streaming是Spark为这些应用而设计的模型。它允许用户...

  • spark执行过程

    先启动master,之后启动workermaster会将worker的信息保存起来,worker会向master定...

  • spark执行过程分析

    spark任务执行记录 背景:利用pyspark join表,随后写入hive;代码中包含三个写入操作hiveCo...

  • spark任务执行过程

    ​ 在学习了Spark RDD和RDD操作之后,是不是很想快点写个Spark程序来巩固一下所学的知识。学习大数...

  • Spark配置加载过程

    程序提交或者spark-shell 执行后相关配置的加载过程为: 1、首先执行环境配置脚本spark-evn.c...

  • 为Spark on Yarn配置WebUI日志记录

    Spark on Yarn模式下在Spark Web UI上无法看到Spark应用程序执行的过程日志,这样在前期开...

  • Spark 任务调度概述

    Spark执行的大致过程,如下 Driver程序(即用户编写的Spark程序)初始化SparkContext对象。...

  • 第六章Spark SQL与DataFrame

    Spark SQL执行流程 在Spark SQL的运行架构中,逻辑计划(logical plan)贯穿了大部分过程...

网友评论

      本文标题:Spark Streaming-执行过程

      本文链接:https://www.haomeiwen.com/subject/rbyohxtx.html