美文网首页
Spark-pyspark

Spark-pyspark

作者: edwin1993 | 来源:发表于2018-06-30 11:58 被阅读0次

    pyspark介绍

    pyspark是Spark官方提供的API接口,同时pyspark也是Spark中的一个程序。
    在terminal中输入pyspark指令,可以打开python的shell,同时其中默认初始化了SparkConf和SparkContext

    pyspark中有很多的功能组件,以pyspark对sql的功能组件举例:

    通过spark可以直接访问到HIVE中的数据并进行操作
    需要进行spark上下文的设置。

    >>> from pyspark import SparkConf,SparkContext
    >>> from pyspark.sql import HiveContext
    >>> 
    >>> sc
    <pyspark.context.SparkContext object at 0x7fcaa21008d0>
    >>> sqlContext = HiveContext(sc)
    >>> my_edwintestFile = sqlContext.sql("select * from edwin_test")
    >>> my_edwintestFile
    DataFrame[tid: int, tname: string, age: int, gender: string]
    >>> my_edwintestFile.show()
    +---+-----+---+------+
    |tid|tname|age|gender|
    +---+-----+---+------+
    |  1|  Tom| 29|     F|
    |  2| Tom2| 22|     F|
    |  3| Tom3| 23|     F|
    |  4| Tom4| 25|     F|
    |  5| Tom5| 27|     F|
    |  1|  Tom| 29|     M|
    |  2| Tom2| 22|     M|
    |  3| Tom3| 23|     M|
    |  4| Tom4| 25|     M|
    |  5| Tom5| 27|     M|
    +---+-----+---+------+
    
    

    如果需要整理为*.py文件进行提交,那么sc将不会自动创建,需要整理为:

    from pyspark import SparkContext
    from pyspark.sql import HiveContext
    sc = SparkContext('local')
    sqlContext = HiveContext(sc)
    my_edwintestFile = sqlContext.sql("select * from edwin_test")
    my_edwintestFile.show()
    

    运行结果一样。

    相关文章

      网友评论

          本文标题:Spark-pyspark

          本文链接:https://www.haomeiwen.com/subject/kjibsftx.html