小结-Spark-Spark Streaming入门

作者: Andrew0000 | 来源:发表于2019-05-14 22:57 被阅读0次

小结-Spark-Spark Streaming入门
Spark Streaming进阶
Spark Streaming整合Flume
Spark Streaming整合Kafka
Kafka快速开始
Spark Streaming之DStream创建
Spark Streaming入门
Spark Streaming入门
Apache Spark 2.2.0 中文文档 - Spark
Apache Spark 2.2.0 中文文档 - Spark

定义及工作原理

Spark Streaming定义，官网翻译如下

Spark Streaming是核心Spark API的扩展，可实现实时数据流的可扩展，高吞吐量，容错流处理。

数据可以从许多来源（如Kafka，Flume，Kinesis或TCP套接字）中获取，并且可以使用以高级函数（如map，reduce，join和window）表示的复杂算法进行处理。

最后，处理后的数据可以推送到文件系统，数据库和实时仪表板。实际上，您可以在数据流上应用Spark的机器学习和图形处理算法。

工作原理，官网翻译如下

在内部，它的工作原理如下：

Spark Streaming接收实时输入数据流并将数据分成批处理，然后由Spark引擎处理以批量生成最终结果流。

小结

Spark流数据处理就是将实时数据输入，按时间间隔分批次处理（形成一系列RDD）然后按需求输出。

流数据加载之初始化

Python

from pyspark import SparkContext
from pyspark.streaming import StreamingContext

# Create a local StreamingContext with two working thread and batch interval of 1 second
sc = SparkContext("local[2]", "NetworkWordCount")
sc.setLogLevel("WARN")
ssc = StreamingContext(sc, 5)

Scala

import org.apache.spark._
import org.apache.spark.streaming._

// Create a local StreamingContext with two working thread and batch interval of 1 second.
// The master requires 2 cores to prevent a starvation scenario.

val conf = new SparkConf().setMaster("local[2]").setAppName("NetworkWordCount")
val sc = new SparkContext(conf)
sc.setLogLevel("WARN")
val ssc = new StreamingContext(conf, Seconds(5))

小结

Spark Streaming初始化必须创建一个SparkContext流上下文对象，这是所有流处理的入口，接着创建StreamingContext对象。

如果后面结构化RDD，也就是DataFrame流操作，必须使用StreamingContext正在使用的 SparkContext 创建SparkSession

流数据加载之离散化流

Discretized Stream离散化流

Discretized Stream或DStream是Spark Streaming提供的基本抽象。

它表示连续的数据流，可以是从源接收的输入数据流，也可以是通过转换输入流生成的已处理数据流。在内部，DStream由一系列连续的RDD表示，这是Spark对不可变分布式数据集的抽象。

DStream中的每个RDD都包含来自特定时间间隔的数据。

其实，DStram很好理解，就是按时间间隔组合的一系列RDD，其特点就是离散且持续。

离散流DStream的输入

Spark Streaming提供两类内置流媒体源。

基本来源：StreamingContext API中直接提供的源。示例：文件系统和套接字连接。如上面StreamingContext。

高级资源：Kafka，Flume，Kinesis等资源可通过额外的实用程序类获得。这些需要链接额外的依赖关系，如链接部分所述。

离散流DStream的转化

与RDD类似，转换允许修改来自输入DStream的数据。 DStreams支持普通Spark RDD上可用的许多转换。

DStream同样与RDD一样有map、flatmap、union、reduce、transform等等，但是区别于RDD，这些transform算子都不同于RDD算子的封装操作（针对于一些了RDD的操作），但其底层还是对每个RDD的操作。

离散流DStream的输出

输出操作允许将DStream的数据推送到外部系统，如数据库或文件系统。

由于输出操作实际上允许外部系统使用转换后的数据，因此它们会触发所有DStream转换的实际执行（类似于RDD的操作）

print（在Python API中pprint）、saveAsTextFiles、foreachRDD等等输出。

其中，值得注意的是，无论是什么输出底层调用的都是foreachRDD函数。

流数据处理扩展

了解更多，请参考官网后续包括，结构化RDD的流操作、检查点、部署等等。

DataFrame流处理操作Demo

r"""
 Use DataFrames and SQL to count words in UTF8 encoded, '\n' delimited text received from the
 network every second.
 Usage: sql_network_wordcount.py <hostname> <port>
   <hostname> and <port> describe the TCP server that Spark Streaming would connect to receive data.
 To run this on your local machine, you need to first run a Netcat server
    `$ nc -lk 9999`
 and then run the example
    `$ bin/spark-submit examples/src/main/python/streaming/sql_network_wordcount.py localhost 9999`
"""

from __future__ import print_function
from pyspark import SparkContext
from pyspark.streaming import StreamingContext
from pyspark.sql import Row, SparkSession


def getSparkSessionInstance(sparkConf):
    # if ('sparkSessionSingletonInstance' not in globals()):
    # 创建SparkSession
    # 必须使用StreamingContext正在使用的SparkContext创建SparkSession
    globals()['sparkSessionSingletonInstance'] = SparkSession \
        .builder \
        .config(conf=sparkConf) \
        .getOrCreate()
    return globals()['sparkSessionSingletonInstance']


def process(time, rdd):
    # Convert RDDs of the words DStream to DataFrame and run SQL query
    print("========= %s =========" % str(time))
    try:
        # Get the singleton instance of SparkSession
        spark = getSparkSessionInstance(rdd.context.getConf())

        # Convert RDD[String] to RDD[Row] to DataFrame
        rowRdd = rdd.map(lambda w: Row(word=w))
        wordsDataFrame = spark.createDataFrame(rowRdd)

        # Creates a temporary view using the DataFrame.
        wordsDataFrame.createOrReplaceTempView("words")

        # Do word count on table using SQL and print it
        wordCountsDataFrame = \
            spark.sql("select word, count(*) as total from words group by word")
        wordCountsDataFrame.show()
    except:
        pass


if __name__ == "__main__":
    # SparkContext---StreamingContext---SparkSession
    host, port = ["localhost", 9999]
    sc = SparkContext(appName="PythonSqlNetworkWordCount")
    # 默认log应该是info级，信息较多不利于观察；
    sc.setLogLevel("WARN")
    ssc = StreamingContext(sc, 5)

    # Create a socket stream on target ip:port and count the
    # words in input stream of \n delimited text (eg. generated by 'nc')
    lines = ssc.socketTextStream(host, int(port))

    words = lines.flatMap(lambda line: line.split(" "))

    words.foreachRDD(process)
    # 标准用法，没有output（foreachRDD）都是懒加载，只会记录后删除，并不运行；
    ssc.start()
    ssc.awaitTermination()

网友评论

本文标题：小结-Spark-Spark Streaming入门

本文链接：https://www.haomeiwen.com/subject/gnmyaqtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！