一、准备工作（之前踩过的坑）

1、需要安装java的jdk，scala，spark，hadoop
2、jdk的版本一定要是1.8的，1.9的会报错。
3、各个文件的安装路径中不能存在空格，所以jdk的安装千万不要默认路径
4、安装spark前一定要安装scala，否则运行spark-shell时会报错
5、在windows下安装需要类似于破解的东西才能打开namenode，找了半天才找到的方案，参考文末的博客。
6、启动hive前必须先启动hadoop，要不然没法连接到9000端口

二、安装

1、java的 jdk

a）使用版本：1.8版本
敲黑板：路径千万不要在默认路径Program File下，路径文件中中间不能存在空格（踩的第一个坑）

b) 配置java环境变量
变量名JAVA_HOME，变量值D:\system\Java\jdk1.8.0_65，然后到PATH中配置路径%JAVA_HOME\bin
c) 测试：在命令行中测试 java -version

2、安装scala

a)使用版本：版本scala-2.11.8 下载地址

一定要安装scala，我之前是想用pyspark，所以没有安装scala，最后测试spark-shell时老是没有系统文件（这是踩的第二个坑）

b)配置scala环境变量：
变量名SCALA_HOME，变量值D:\system\scala-2.11.8，然后到PATH中配置路径%SCALA_HOME\bin

3、安装spark：

a) 使用版本：spark-2.4.3-bin-hadoop2.7.tgz
spark下载地址

b)配置环境变量

变量名SPARK_HOME，变量值D:\system\spark-2.4.3-bin-hadoop2.7，然后到PATH中配置路径%SPARK_HOME\bin

c) 测试：spark-shell

4、安装hadoop

a)根据spark和winutils的版本来选择hadoop版本号

根据spark在官网下载的时候会提醒下载的hadoop版本
去 [https://github.com/steveloughran/winutils] 选择你安装的Hadoop版本号，然后进入到bin目录下，找到 winutils.exe文件，下载文件，放到hadoop\bin下的文件夹。
替换hadoop中的bin和etc https://github.com/sardetushar/hadooponwindows
在window下为了不装cygwin，参考了下面的博客，使得能够在windows下使用hadoop，替换原来的bin和etc，然后修改其中的core-site.xml和hdfs-site.xml的参数，详情可见参考博客，我是用的是hadoop-2.8.3的版本，可以使用。

b)配置环境变量

变量名HADOOP_HOME，变量值D:\system\hadoop-2.8.3\，然后到PATH中配置路%HADOOP_HOME\bin
c)启动hadoop，在cmd中先格式化hadoophadoop namenode -format,然后进入hadoop-2.8.3 / sbin中使用start-all.cmd启动hadoop和yarn。然后进入网页版进行测试，hadoophttp://localhost:8088和namenode<>

5、安装pyspark

a) 复制spark-2.4.3-bin-hadoop2.7\python\pyspark文件夹，以及解压spark-2.4.3-bin-hadoop2.7\python\lib\py4j-0.10.7-src.zip，到Anaconda3\pkgs文件夹下

b）测试：在命令行中输入python，import pyspark

6、hive的安装

a)安装地址
b)设置环境变量，HIVE_HOME,变量值为D:\system\hive-2.1.1\,然后到PATH中配置路由%HIVE_HOME\bin
c)复制mysql驱动jar到$HIVE_HOME/lib下。mysql的jar包下载地址
d)参数的设置，修改hive-site.xml中的文件存放地址和数据库的连接，具体可参考下边博客【hive配置参数的参考】
4）启动hive，使用hive之前必须要先启动hadoop和hdfs，启动之后在cmd命令中输入hive启动

思考：看了网上的教程总觉得可以直接下载pyspark的安装库，不用那么麻烦的，哪位小伙伴可以试试直接在anaconda环境中conda install pyspark 试试，能安装使用的话望告知哈

参考博客：
hadoop的搭建和参数配置
 hive搭建与初始化的参考
 hive配置参数的参考