美文网首页
win下使用pycharm开发第一个pyspark应用程序

win下使用pycharm开发第一个pyspark应用程序

作者: Sam_L | 来源:发表于2019-03-11 16:14 被阅读0次

    win下使用pycharm开发pyspark应用程序
    1、在本地win下安装spark(可以拿着你在服务器上编译过的安装包复制过来解压就行)
    2、配置环境变量


    Image 4.png Image 5.png

    3、新建一个Pure python项目
    4、打开project Structure
    右侧添加+
    spark安装包----》python----》lib----》这2个添加进来


    Image 3.png

    添加结果:


    Image 4.png
    【新建一个spark01.py---用官网的栗子】
    # coding:utf8
    
    from pyspark import SparkConf,SparkContext
    
    #创建SparkConf:设置的是Spark相关的参数信息
    conf = SparkConf()
          .setMaster("local[2]")
          .setAppName("spark01")
    
    #创建SparkContext
    sc = SparkContext(conf=conf)
    
    #业务逻辑
    data = [1,2,3,4,5]
    distData = sc.parallelize(data)
    print(distData.collect())
    
    #关闭
    sc.stop()
    

    运行:


    Image 3.png
    5、可以试着提交到服务器上
    要注释掉:

    .setMaster("local[2]")
    .setAppName("spark01")

    ❤官网说道:跑在集群上的话,不要硬编码master,可以通过外面传进来
    In practice, when running on a cluster, you will not want to hardcode master in the program,

    (1)准备个脚本 vi spark01.py
    复制上面的代码,注意注释掉setMaster,setAppName
    (2)该启动的启动好了噢
    (3)提交spark作业 :
    在spark安装包下的bin目录下执行

    ./spark-submit --master local[2] \
    --name spark01 \
    /home/hadoop/data/script/spark01.py
    

    结果出来啦~~~


    Image 8.png

    相关文章

      网友评论

          本文标题:win下使用pycharm开发第一个pyspark应用程序

          本文链接:https://www.haomeiwen.com/subject/hdjbpqtx.html