PySpark Cookbook - 2018.pdf

结合Apache Spark和Python的强大功能,构建有效的大数据应用程序
主要特点
- 使用PySpark执行有效的数据处理,机器学习和分析
- 克服使用Python开发和部署Spark解决方案的挑战
- 探索有效结合Python和Apache Spark以处理数据的方法
图书说明
Apache Spark是一个高效集群计算的开源框架,具有强大的数据并行和容错接口。 PySpark Cookbook提供了有效且省时的方法,可充分利用Python的强大功能并将其用于Spark生态系统。
您将首先学习Apache Spark架构以及如何为Spark设置Python环境。然后,您将熟悉PySpark中可用的模块,并毫不费力地开始使用它们。除此之外,您还将了解如何使用RDD和DataFrame抽象数据,并了解PySpark的流功能。然后,您将继续使用ML和MLlib来解决与PySpark的机器学习功能相关的任何问题,并使用GraphFrames来解决图形处理问题。最后,您将探索如何使用spark-submit命令将应用程序部署到云。
在本书的最后,您将能够使用Apache API的Python API来解决与构建数据密集型应用程序相关的任何问题。
参考资料
- 下载:PySpark Cookbook - 2018.pdf
- qq群630011153 144081101
- python测试开发项目实战-目录
- 本文涉及的python测试开发库 谢谢点赞!
- 本文相关海量书籍下载
- 2018最佳人工智能机器学习工具书及下载(持续更新)
- Format Pdf
- Page Count 330 Pages
- https://github.com/PacktPublishing/PySpark-Cookbook 10+ 星
你会学到什么
- 在虚拟环境中配置PySpark的本地实例
- 在本地和多节点环境中安装和配置Jupyter
- 使用pyspark.sql从JSON和字典创建DataFrames
- 探索ML模块中可用的回归和聚类模型
- 使用DataFrames转换用于建模的数据
- 连接到PubNub并在流上执行聚合
目录
- Spark安装和配置
- 使用RDD提取数据
- 使用DataFrames抽象数据
- 准备建模数据
- 使用MLLib进行机器学习
- 使用ML模块进行机器学习
- 使用PySpark进行结构化流式处理
- GraphFrames - 使用PySpark的图论
网友评论