win下使用pycharm开发pyspark应用程序
1、在本地win下安装spark(可以拿着你在服务器上编译过的安装包复制过来解压就行)
2、配置环境变量
Image 4.png Image 5.png
3、新建一个Pure python项目
4、打开project Structure
右侧添加+
spark安装包----》python----》lib----》这2个添加进来
Image 3.png
添加结果:
Image 4.png
【新建一个spark01.py---用官网的栗子】
# coding:utf8
from pyspark import SparkConf,SparkContext
#创建SparkConf:设置的是Spark相关的参数信息
conf = SparkConf()
.setMaster("local[2]")
.setAppName("spark01")
#创建SparkContext
sc = SparkContext(conf=conf)
#业务逻辑
data = [1,2,3,4,5]
distData = sc.parallelize(data)
print(distData.collect())
#关闭
sc.stop()
运行:
Image 3.png
5、可以试着提交到服务器上
要注释掉:
.setMaster("local[2]")
.setAppName("spark01")
❤官网说道:跑在集群上的话,不要硬编码master,可以通过外面传进来
In practice, when running on a cluster, you will not want to hardcode master in the program,
(1)准备个脚本 vi spark01.py
复制上面的代码,注意注释掉setMaster,setAppName
(2)该启动的启动好了噢
(3)提交spark作业 :
在spark安装包下的bin目录下执行
./spark-submit --master local[2] \
--name spark01 \
/home/hadoop/data/script/spark01.py
结果出来啦~~~
Image 8.png
网友评论