在Windows上搭建pyspark环境

作者: 空尘AI | 来源:发表于2020-06-21 10:15 被阅读0次

在Windows上搭建pyspark环境
windows 上搭建pyspark环境，并使用pyspark连
pyspark使用方法
在windows下atom上搭建PlantUML书写环境
Windows版本搭建安装React Native环境配置
在Windows中安装PySpark环境
Flutter环境搭建，安装PowerShell，报错0x802
Spark 教程
Vue系列之WebPack与Eslint
Flutter 学习之路---环境搭建

1，安装anaconda3，可以参考我之前的文档

2，安装配置JDK

下载地址
https://www.oracle.com/java/technologies/javase/javase-jdk8-downloads.html
我下载的jdk-8u251-windows-x64.exe安装文件，双击打开，一路下一步直到完成。
右键“此电脑”--> “属性” --> “高级系统设置”-->“环境变量”
新建一个JAVA_HOME变量
在path中加入%JAVA_HOME%\bin和%JAVA_HOME%\jre\bin

image.png

3，安装配置scala

下载地址
https://www.scala-lang.org/download/
我下载的scala-2.11.6.msi安装文件，双击打开一路下一步就完成了，然后配置环境变量

新建变量SCALA_HOME
path中加入%SCALA_HOME%\bin

image.png

4，安装配置spark

下载地址
http://spark.apache.org/downloads.html

image.png

下载好之后解压到本地

image.png

系统变量中新建SPARK_HOME，path中加入%SPARK_HOME%\bin和%SPARK_HOME%\sbin

image.png

5，配置pyspark

上一步解压的spark目录E:\spark-2.4.6-bin-hadoop2.7\python\lib中找到py4j-0.10.7-src.zip 和pyspark.zip，右键选择加压到当前文件夹，然后将解压出来的两个文件夹剪切到anaconda安装目录下面的Lib/site-packages目录下

image.png

6，配置Hadoop环境

下载hadoop-common-2.6.0-bin-master.zip 解压到本地，然后在环境变量中添加HADOOP_HOME
链接：https://pan.baidu.com/s/1M2YboA1wqzLgoD6DPxMQ_Q
提取码：4kn5

image.png

7，pyspark环境验证

win + R，然后输入cmd回车，然后输入pyspark

image.png

list = ['zhangsan','lisi','wangwu','wangmazi','lisi','wangmazi','lisi']
mapRdd = rdd.map(lambda word : (word,1))
reduceRdd = mapRdd.reduceByKey(lambda x,y : x+y)
reduceRdd.collect()

运行正常，说明pyspark环境已经搭建完成。

image.png