PySpark介绍

作者: azim | 来源:发表于2018-08-29 12:18 被阅读0次

当要分析的资料大到一台电脑没办法处理(可能是档案过大没办法载入单台电脑的记忆体、或是单台运算时间太长)的时候,通常有两种解决方法。1.购买一台昂贵的超级电脑(96核CPU, 1TB Memory…) 2.购买多台较便宜的一般电脑来分工处理原本的工作。

  • 第一种的解法,对于开发人员来说的好处是程式码完全不用改直接丢上去跑。但对于企业来说为了少数工作花好几百万的经费购买超级电脑非常的不划算,而且假设刚好你的资料量又超过1TB这时候原本的超级电脑就不能使用了,要再买更高级的超级电脑,也就是扩充性不佳
  • 利用多台电脑打造一个运算群集(背后可能是1000台16核心48GB的电脑这样的等级), 此时你要多少运算资源都可以动态的调整,比方说某一个工作要100核心以及2TB的Memory, Spark都可以很快的配置资源,并且这个运算丛集是可以给全公司的人来使用,平均分摊下来的成本较低。而且这样的群集的已很容易地增加以及减少里面的电脑数量。

Spark官方网站提到Spark的好处有

速度快

Spark比起Hadoop在运算上快了许多,主要是把资料暂存在记忆体以及把资料处理的部份优化(ex:减少shuffle)

容易使用

Spark提供Scala,Python,R,Java的API介面,让开发者可以利用自己擅长的开发语言来开发。主流上是使用Scala, Python这两种

广泛应用

可以在Spark上面使用SQL、即时串流(Streaming)、Spark的机器学习套件(MLlib)、图论(计算图形中任两点的最短路径)的套件

下图为Spark python语言API工具PySpark简要学习指南:

相关文章

  • Spark-pyspark

    pyspark介绍 pyspark是Spark官方提供的API接口,同时pyspark也是Spark中的一个程序。...

  • PySpark介绍

    当要分析的资料大到一台电脑没办法处理(可能是档案过大没办法载入单台电脑的记忆体、或是单台运算时间太长)的时候,通常...

  • Spark Python API Docs(part one)

    pyspark package subpackages pyspark.sql module pyspark.st...

  • pyspark整理

    pyspark入门资料 公众号回复:pyspark (会有pyspark资料大礼包:Learning PySpar...

  • PySpark初见

    PySpark PySpark 是 Spark 为 Python 开发者提供的 API。 子模块pyspark.s...

  • Jupyter配置教程

    将jupyter notebook作为pyspark的默认编辑器 安装pyspark通过拷贝pyspark包安装源...

  • PySpark Recipes A Problem-Soluti

    PySpark Recipes A Problem-Solution Approach with PySpark2...

  • Spark Python API Docs(part three

    pyspark.streaming module Module contents class pyspark.st...

  • from pyspark.mllib.recommendatio

    进入pyspark输入from pyspark.mllib.recommendation import Ratin...

  • pyspark读写hbase

    安装pyspark pip install pyspark==2..3.2 --default-timeout=1...

网友评论

    本文标题:PySpark介绍

    本文链接:https://www.haomeiwen.com/subject/puvhwftx.html