一、准备工作(之前踩过的坑)
1、需要安装java的jdk,scala,spark,hadoop
2、jdk的版本一定要是1.8的,1.9的会报错。
3、各个文件的安装路径中不能存在空格,所以jdk的安装千万不要默认路径
4、安装spark前一定要安装scala,否则运行spark-shell时会报错
5、在windows下安装需要类似于破解的东西才能打开namenode,找了半天才找到的方案,参考文末的博客。
6、启动hive前必须先启动hadoop,要不然没法连接到9000端口
二、安装
1、java的 jdk
a) 使用版本:1.8版本
敲黑板:路径千万不要在默认路径Program File下,路径文件中中间不能存在空格(踩的第一个坑)
b) 配置java环境变量
变量名JAVA_HOME
,变量值D:\system\Java\jdk1.8.0_65
,然后到PATH中配置路径%JAVA_HOME\bin
c) 测试:在命令行中测试 java -version
2、安装scala
a)使用版本:版本scala-2.11.8 下载地址
一定要安装scala,我之前是想用pyspark,所以没有安装scala,最后测试spark-shell时老是没有系统文件(这是踩的第二个坑)
b)配置scala环境变量:
变量名SCALA_HOME
,变量值D:\system\scala-2.11.8
,然后到PATH中配置路径%SCALA_HOME\bin
3、安装spark:
a) 使用版本:spark-2.4.3-bin-hadoop2.7.tgz
spark下载地址
b)配置环境变量
变量名SPARK_HOME
,变量值D:\system\spark-2.4.3-bin-hadoop2.7
,然后到PATH中配置路径%SPARK_HOME\bin
c) 测试:spark-shell
4、安装hadoop
a)根据spark和winutils的版本来选择hadoop版本号
- 根据spark在官网下载的时候会提醒下载的hadoop版本
- 去 [https://github.com/steveloughran/winutils] 选择你安装的Hadoop版本号,然后进入到bin目录下,找到
winutils.exe
文件,下载文件,放到hadoop\bin下的文件夹。 - 替换hadoop中的bin和etc https://github.com/sardetushar/hadooponwindows
在window下为了不装cygwin,参考了下面的博客,使得能够在windows下使用hadoop,替换 原来的bin和etc,然后修改其中的core-site.xml和hdfs-site.xml的参数,详情可见参考博客,我是用的是hadoop-2.8.3的版本,可以使用。
b)配置环境变量
变量名HADOOP_HOME
,变量值D:\system\hadoop-2.8.3\
,然后到PATH中配置路%HADOOP_HOME\bin
c)启动hadoop,在cmd中先格式化hadoophadoop namenode -format
,然后进入hadoop-2.8.3 / sbin中使用start-all.cmd
启动hadoop和yarn。然后进入网页版进行测试,hadoophttp://localhost:8088和namenode<>
5、安装pyspark
a) 复制spark-2.4.3-bin-hadoop2.7\python\pyspark文件夹,以及解压spark-2.4.3-bin-hadoop2.7\python\lib\py4j-0.10.7-src.zip,到Anaconda3\pkgs文件夹下
b)测试:在命令行中输入python,import pyspark
6、hive的安装
a)安装地址
b)设置环境变量,HIVE_HOME
,变量值为D:\system\hive-2.1.1\
,然后到PATH中配置路由%HIVE_HOME\bin
c)复制mysql驱动jar到$HIVE_HOME/lib下。mysql的jar包下载地址
d)参数的设置,修改hive-site.xml中的文件存放地址和数据库的连接,具体可参考下边博客【hive配置参数的参考】
4)启动hive,使用hive之前必须要先启动hadoop和hdfs,启动之后在cmd命令中输入hive启动
思考:看了网上的教程总觉得可以直接下载pyspark的安装库,不用那么麻烦的,哪位小伙伴可以试试直接在anaconda环境中conda install pyspark 试试,能安装使用的话望告知哈
网友评论