Spark-pyspark

作者: edwin1993 | 来源:发表于2018-06-30 11:58 被阅读0次

Spark-pyspark
Spark-PySpark 广播文件
Spark-PySpark sql各种内置函数

pyspark介绍

pyspark是Spark官方提供的API接口，同时pyspark也是Spark中的一个程序。
在terminal中输入pyspark指令，可以打开python的shell，同时其中默认初始化了SparkConf和SparkContext

pyspark中有很多的功能组件，以pyspark对sql的功能组件举例：

通过spark可以直接访问到HIVE中的数据并进行操作
需要进行spark上下文的设置。

>>> from pyspark import SparkConf,SparkContext
>>> from pyspark.sql import HiveContext
>>> 
>>> sc
<pyspark.context.SparkContext object at 0x7fcaa21008d0>
>>> sqlContext = HiveContext(sc)
>>> my_edwintestFile = sqlContext.sql("select * from edwin_test")
>>> my_edwintestFile
DataFrame[tid: int, tname: string, age: int, gender: string]
>>> my_edwintestFile.show()
+---+-----+---+------+
|tid|tname|age|gender|
+---+-----+---+------+
|  1|  Tom| 29|     F|
|  2| Tom2| 22|     F|
|  3| Tom3| 23|     F|
|  4| Tom4| 25|     F|
|  5| Tom5| 27|     F|
|  1|  Tom| 29|     M|
|  2| Tom2| 22|     M|
|  3| Tom3| 23|     M|
|  4| Tom4| 25|     M|
|  5| Tom5| 27|     M|
+---+-----+---+------+

如果需要整理为*.py文件进行提交，那么sc将不会自动创建，需要整理为：

from pyspark import SparkContext
from pyspark.sql import HiveContext
sc = SparkContext('local')
sqlContext = HiveContext(sc)
my_edwintestFile = sqlContext.sql("select * from edwin_test")
my_edwintestFile.show()

运行结果一样。

网友评论

本文标题：Spark-pyspark

本文链接：https://www.haomeiwen.com/subject/kjibsftx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

Spark-pyspark

pyspark介绍

相关文章

Spark-pyspark

Spark-PySpark 广播文件

Spark-PySpark sql各种内置函数

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读