1,安装anaconda3,可以参考我之前的文档
2,安装配置JDK
下载地址
https://www.oracle.com/java/technologies/javase/javase-jdk8-downloads.html
我下载的jdk-8u251-windows-x64.exe安装文件,双击打开,一路下一步直到完成。
右键“此电脑”--> “属性” --> “高级系统设置”-->“环境变量”
新建一个JAVA_HOME变量
在path中加入%JAVA_HOME%\bin和%JAVA_HOME%\jre\bin
image.png
3,安装配置scala
下载地址
https://www.scala-lang.org/download/
我下载的scala-2.11.6.msi安装文件,双击打开一路下一步就完成了,然后配置环境变量
新建变量SCALA_HOME
path中加入%SCALA_HOME%\bin
image.png
image.png
4,安装配置spark
下载地址
http://spark.apache.org/downloads.html
下载好之后解压到本地
image.png
系统变量中新建SPARK_HOME,path中加入%SPARK_HOME%\bin和%SPARK_HOME%\sbin
image.png
image.png
5,配置pyspark
上一步解压的spark目录E:\spark-2.4.6-bin-hadoop2.7\python\lib中找到py4j-0.10.7-src.zip 和pyspark.zip,右键选择加压到当前文件夹,然后将解压出来的两个文件夹剪切到anaconda安装目录下面的Lib/site-packages目录下
image.png
image.png
image.png
6,配置Hadoop环境
下载hadoop-common-2.6.0-bin-master.zip 解压到本地,然后在环境变量中添加HADOOP_HOME
链接:https://pan.baidu.com/s/1M2YboA1wqzLgoD6DPxMQ_Q
提取码:4kn5
7,pyspark环境验证
win + R,然后输入cmd回车,然后输入pyspark
image.png
image.png
list = ['zhangsan','lisi','wangwu','wangmazi','lisi','wangmazi','lisi']
mapRdd = rdd.map(lambda word : (word,1))
reduceRdd = mapRdd.reduceByKey(lambda x,y : x+y)
reduceRdd.collect()
运行正常,说明pyspark环境已经搭建完成。
image.png
网友评论