1.下载jdk1.8 jdk1.8地址

安装java环境变量
因为我的javajdk在本地 C:\Java\jdk1.8.0_151 故此:
看清楚是环境变量还是系统变量 path java 跟hadoop 都要跟到bin下



测试一下java环境变量是否配置成功
win+r 启动命令窗口 里面输入 cmd

回车之后输入javac 如下 表示配置成功

2. 下载hadoop2.7 hadoop地址
找到对应版本 本次使用hadoop2.7 windows 下安装hadoop


环境变量中添加HADOOP_HOME=C:\hadoop-2.7.4\hadoop-2.7.4

将C:\hadoop-2.7.4\hadoop-2.7.4\bin和C:\hadoop-2.7.4\hadoop-2.7.4sbin添加到path中。

下载一个重要的东西
hadooponwindows
地址:https://github.com/sardetushar/hadooponwindows
把原来hadoop 自带的 bin 目录下 与etc 目录下的东西都删掉
换成 hadooponwidows 里面的

修改配置文件
1.etc/hadoop.core-site.xml

2:etc/hadoop/mapred-site.xml

3:etc/hadoop/hdfs-site.xml

4:etc\hadoop\yarn-site.xml

5:etc/hadoop/hadoop-env.cmd

执行操作
1 .切换到etc/hadoop目录,运行hadoop-env.cmd
2. 切换到bin目录然后,格式化HDFS文件系统,执行命令:hdfs namenode -format
3、到这里,你的hadoop就可以正常使用了。可以查看一下版本,bin目录 执行 hadoop version
4、启动 cd到hadoop的sbin目录,运行start-all.cmd\
5、在浏览器中输入 http:\\localhost:8088打开hadoop的web管理网页即可。

3.下载spark spark地址


1,将spark所在目录下(比如我的是C:\spark-2.2.1-bin-hadoop2.7\spark-2.2.1-bin-hadoop2.7\python)的pyspark文件夹拷贝到python文件夹下(我的是C:\Python35\Lib\site-packages)
具体目录要看大家自己安装的时候是放在哪的!


2,安装py4j库
一般的在cmd命令行下 pip install py4j 就可以。若是没有将pip路径添加到path中,就将路径切换到python的Scripts中,然后再 pip install py4j 来安装库。
3,修改权限
将winutils.exe文件放到Hadoop的bin目录下(我的是C:\hadoop-2.7.4\hadoop-2.7.4\bin),然后以管理员的身份打开cmd,然后通过cd命令进入到Hadoop的bin目录下,然后执行以下命令:
winutils.exe chmod 777 c:\tmp\

然后启动命令行输入 pyspark
如下图 不报错就代表安装成功了

如有问题请留言感觉不错请打赏下 谢谢
网友评论