pyspark介绍
pyspark是Spark官方提供的API接口,同时pyspark也是Spark中的一个程序。
在terminal中输入pyspark指令,可以打开python的shell,同时其中默认初始化了SparkConf和SparkContext
pyspark中有很多的功能组件,以pyspark对sql的功能组件举例:
通过spark可以直接访问到HIVE中的数据并进行操作
需要进行spark上下文的设置。
>>> from pyspark import SparkConf,SparkContext
>>> from pyspark.sql import HiveContext
>>>
>>> sc
<pyspark.context.SparkContext object at 0x7fcaa21008d0>
>>> sqlContext = HiveContext(sc)
>>> my_edwintestFile = sqlContext.sql("select * from edwin_test")
>>> my_edwintestFile
DataFrame[tid: int, tname: string, age: int, gender: string]
>>> my_edwintestFile.show()
+---+-----+---+------+
|tid|tname|age|gender|
+---+-----+---+------+
| 1| Tom| 29| F|
| 2| Tom2| 22| F|
| 3| Tom3| 23| F|
| 4| Tom4| 25| F|
| 5| Tom5| 27| F|
| 1| Tom| 29| M|
| 2| Tom2| 22| M|
| 3| Tom3| 23| M|
| 4| Tom4| 25| M|
| 5| Tom5| 27| M|
+---+-----+---+------+
如果需要整理为*.py文件进行提交,那么sc将不会自动创建,需要整理为:
from pyspark import SparkContext
from pyspark.sql import HiveContext
sc = SparkContext('local')
sqlContext = HiveContext(sc)
my_edwintestFile = sqlContext.sql("select * from edwin_test")
my_edwintestFile.show()
运行结果一样。
网友评论