win下使用pycharm开发第一个pyspark应用程序

作者: Sam_L | 来源:发表于2019-03-11 16:14 被阅读0次

win下使用pycharm开发pyspark应用程序
1、在本地win下安装spark（可以拿着你在服务器上编译过的安装包复制过来解压就行）
2、配置环境变量

Image 4.png

Image 5.png

3、新建一个Pure python项目
4、打开project Structure
右侧添加+
spark安装包----》python----》lib----》这2个添加进来

Image 3.png

添加结果：

Image 4.png

【新建一个spark01.py---用官网的栗子】

# coding:utf8

from pyspark import SparkConf,SparkContext

#创建SparkConf:设置的是Spark相关的参数信息
conf = SparkConf()
      .setMaster("local[2]")
      .setAppName("spark01")

#创建SparkContext
sc = SparkContext(conf=conf)

#业务逻辑
data = [1,2,3,4,5]
distData = sc.parallelize(data)
print(distData.collect())

#关闭
sc.stop()

运行：

Image 3.png

5、可以试着提交到服务器上

要注释掉：

.setMaster("local[2]")
.setAppName("spark01")

❤官网说道：跑在集群上的话，不要硬编码master，可以通过外面传进来

In practice, when running on a cluster, you will not want to hardcode master in the program,

（1）准备个脚本 vi spark01.py
复制上面的代码，注意注释掉setMaster,setAppName
(2)该启动的启动好了噢
（3）提交spark作业 :
在spark安装包下的bin目录下执行

./spark-submit --master local[2] \
--name spark01 \
/home/hadoop/data/script/spark01.py

结果出来啦~~~

Image 8.png

网友评论

本文标题：win下使用pycharm开发第一个pyspark应用程序

本文链接：https://www.haomeiwen.com/subject/hdjbpqtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！