Spark-streaming源码走读（序）

作者: 小五_555 | 来源:发表于2017-03-11 21:11 被阅读0次

Spark-streaming源码走读（序）
Spark-streaming源码走读（一）
[epoll 源码走读] LT 与 ET 模式区别
JTA-atomikos源码走读
spark之旅-5.spark-streaming
TestNG框架源码走读三：测试用例执行
[epoll 源码走读] epoll 实现原理
golang中获取interface{}的实际类型
TestNG框架源码走读二：测试套执行
Hadoop 源码学习笔记(6)--Hdfs 的备份，高可用和横

最近刚好有点时间，也把Spark代码看了看，这个系列会一直更新下去，由于本人的scala功底也不是太强，这里权当记录了，如果有人看到我的文章，发现其中的错误，也请大家指正。

hello world

package com.dubin

import org.apache.spark.SparkConf
import org.apache.spark.streaming.{Seconds, StreamingContext}

/**
  * Created by dubin on 17/2/9.
  */
object NetworkWordCount {
  def main(args: Array[String]): Unit = {
    val sparkConf = new SparkConf().setAppName("first spark streaming app")
    val ssc = new StreamingContext(sparkConf, Seconds(10))
    ssc.checkpoint("/tmp")

    val addFunc = (currValues: Seq[Int], prevValue: Option[Int]) => {
      val currentCount = currValues.sum
      val prevCount = prevValue.getOrElse(0)
      Some(currentCount + prevCount)
    }

    val lines = ssc.socketTextStream(args(0), args(1).toInt)
    val words = lines.flatMap(_.split(" "))
    val pairs = words.map(word => (word, 1))

    val totalWordCounts = pairs.updateStateByKey[Int](addFunc)
    totalWordCounts.print()

    ssc.start()
    ssc.awaitTermination()
  }
}

Spark Core里的RDD的概念有比较重要的一条是RDD创建之后就不会改变了，那像streaming这种应用，表面上看到的是像RDD一样的编程，其实是基于DStream的，DStream相当于RDD的模版，有点像代理模式，DStream的compute等操作都是调用对应的RDD的操作。