美文网首页
在Windows上搭建pyspark环境

在Windows上搭建pyspark环境

作者: 空尘AI | 来源:发表于2020-06-21 10:15 被阅读0次

    1,安装anaconda3,可以参考我之前的文档

    win10安装anaconda

    2,安装配置JDK

    下载地址
    https://www.oracle.com/java/technologies/javase/javase-jdk8-downloads.html
    我下载的jdk-8u251-windows-x64.exe安装文件,双击打开,一路下一步直到完成。
    右键“此电脑”--> “属性” --> “高级系统设置”-->“环境变量”
    新建一个JAVA_HOME变量
    在path中加入%JAVA_HOME%\bin和%JAVA_HOME%\jre\bin

    image.png
    image.png

    3,安装配置scala

    下载地址
    https://www.scala-lang.org/download/
    我下载的scala-2.11.6.msi安装文件,双击打开一路下一步就完成了,然后配置环境变量

    新建变量SCALA_HOME
    path中加入%SCALA_HOME%\bin
    
    image.png
    image.png

    4,安装配置spark

    下载地址
    http://spark.apache.org/downloads.html

    image.png

    下载好之后解压到本地


    image.png

    系统变量中新建SPARK_HOME,path中加入%SPARK_HOME%\bin和%SPARK_HOME%\sbin


    image.png
    image.png

    5,配置pyspark

    上一步解压的spark目录E:\spark-2.4.6-bin-hadoop2.7\python\lib中找到py4j-0.10.7-src.zip 和pyspark.zip,右键选择加压到当前文件夹,然后将解压出来的两个文件夹剪切到anaconda安装目录下面的Lib/site-packages目录下


    image.png
    image.png
    image.png

    6,配置Hadoop环境

    下载hadoop-common-2.6.0-bin-master.zip 解压到本地,然后在环境变量中添加HADOOP_HOME
    链接:https://pan.baidu.com/s/1M2YboA1wqzLgoD6DPxMQ_Q
    提取码:4kn5

    image.png

    7,pyspark环境验证

    win + R,然后输入cmd回车,然后输入pyspark


    image.png
    image.png
    list = ['zhangsan','lisi','wangwu','wangmazi','lisi','wangmazi','lisi']
    mapRdd = rdd.map(lambda word : (word,1))
    reduceRdd = mapRdd.reduceByKey(lambda x,y : x+y)
    reduceRdd.collect()
    

    运行正常,说明pyspark环境已经搭建完成。


    image.png

    相关文章

      网友评论

          本文标题:在Windows上搭建pyspark环境

          本文链接:https://www.haomeiwen.com/subject/jreoxktx.html