PySpark Cookbook - 2018.pdf

作者: python测试开发 | 来源:发表于2019-05-18 20:07 被阅读22次

PySpark Cookbook - 2018.pdf

image.png

结合Apache Spark和Python的强大功能,构建有效的大数据应用程序

主要特点

  • 使用PySpark执行有效的数据处理,机器学习和分析
  • 克服使用Python开发和部署Spark解决方案的挑战
  • 探索有效结合Python和Apache Spark以处理数据的方法

图书说明

Apache Spark是一个高效集群计算的开源框架,具有强大的数据并行和容错接口。 PySpark Cookbook提供了有效且省时的方法,可充分利用Python的强大功能并将其用于Spark生态系统。

您将首先学习Apache Spark架构以及如何为Spark设置Python环境。然后,您将熟悉PySpark中可用的模块,并毫不费力地开始使用它们。除此之外,您还将了解如何使用RDD和DataFrame抽象数据,并了解PySpark的流功能。然后,您将继续使用ML和MLlib来解决与PySpark的机器学习功能相关的任何问题,并使用GraphFrames来解决图形处理问题。最后,您将探索如何使用spark-submit命令将应用程序部署到云。

在本书的最后,您将能够使用Apache API的Python API来解决与构建数据密集型应用程序相关的任何问题。

参考资料

你会学到什么

  • 在虚拟环境中配置PySpark的本地实例
  • 在本地和多节点环境中安装和配置Jupyter
  • 使用pyspark.sql从JSON和字典创建DataFrames
  • 探索ML模块中可用的回归和聚类模型
  • 使用DataFrames转换用于建模的数据
  • 连接到PubNub并在流上执行聚合

目录

  • Spark安装和配置
  • 使用RDD提取数据
  • 使用DataFrames抽象数据
  • 准备建模数据
  • 使用MLLib进行机器学习
  • 使用ML模块进行机器学习
  • 使用PySpark进行结构化流式处理
  • GraphFrames - 使用PySpark的图论

相关文章

网友评论

    本文标题:PySpark Cookbook - 2018.pdf

    本文链接:https://www.haomeiwen.com/subject/wjfxzqtx.html