0x00 前言
本篇是Spark源码解析的第二篇,主要通过源码分析Spark Streaming设计中最重要的一个概念——DStream。
本篇主要来分析Spark Streaming中的Dstream,重要性不必多讲,明白了Spark这个几个数据结构,容易对Spark有一个整体的把握。
和RDD那篇文章类似,虽说是分析Dstream,但是整篇文章会围绕着一个具体的例子来展开。算是对Spark Streaming源码的一个概览。
文章结构
- Spark Streaming的一些概念,主要和Dstream相关
- Dstream的整体设计
- 通过一个具体例子深入讲解
0x01 概念
什么是Spark Streaming
Scalable, high-throughput, fault-tolerant stream processing of live data streams!
一个实时系统,或者说是准实时系统。详细不再描述。
提一点就是,Streaming 的任务最后都会转化为Spark任务,由Spark引擎来执行。
微信公众号
网友评论