pyspark类库总结

作者: NEO_X | 来源:发表于2020-02-04 16:58 被阅读0次

内容摘入自<<Python大数据分析从入门到精通>>

Pyspark是Apache Spark的Python应用程序编程接口(API)。Pyspark包括一组公共类、2个模块SQL模块和流数据模块；2个包Mllib和ML用于机器学习，如下图所示。

13-10.png

PySpark核心类说明

Pyspark核心类由公共类、SQL模块和流模块的6个子集类组成。这些类表示核心的Pyspark功能，如下表所示。

PySpark公共类说明。

在Pyspark中有8个公共类，分别是SparkContext、RDD、Broadcast、Accumulator、 SparkConf、SparkFiles、StorageLevel和TaskContext，说明如下表所示。

SQL模块包含了10个类，提供了类型、配置、DataFrames和许多其他功能的SQL函数和方法，具体如下表所示。

流数据模块包含3个主要的类StreamingContext、Dstream、StreamingListener。也特别提供针对了Flume、Kafka、Kinesis流数据处理的类，但这里只对前3个类说明。如下表所示。

类名	说明
StreamingContext	用于处理Spark Streaming应用的入口
DStream	Spark Streaming的基本抽象，DStream是一个连续的数据流
StreamingListener	对Streaming数据流事件监控和处理

本文标题：pyspark类库总结

本文链接：https://www.haomeiwen.com/subject/msprxhtx.html