美文网首页
windows10 下Spark+Hadoop+hive+pys

windows10 下Spark+Hadoop+hive+pys

作者: 鼓鼓06 | 来源:发表于2019-07-22 13:13 被阅读0次

    一、准备工作(之前踩过的坑)

    1、需要安装java的jdk,scala,spark,hadoop
    2、jdk的版本一定要是1.8的,1.9的会报错。
    3、各个文件的安装路径中不能存在空格,所以jdk的安装千万不要默认路径
    4、安装spark前一定要安装scala,否则运行spark-shell时会报错
    5、在windows下安装需要类似于破解的东西才能打开namenode,找了半天才找到的方案,参考文末的博客。
    6、启动hive前必须先启动hadoop,要不然没法连接到9000端口

    二、安装

    1、java的 jdk

    a) 使用版本:1.8版本
    敲黑板:路径千万不要在默认路径Program File下,路径文件中中间不能存在空格(踩的第一个坑)

    b) 配置java环境变量
    变量名JAVA_HOME,变量值D:\system\Java\jdk1.8.0_65,然后到PATH中配置路径%JAVA_HOME\bin
    c) 测试:在命令行中测试 java -version

    2、安装scala

    a)使用版本:版本scala-2.11.8 下载地址

    一定要安装scala,我之前是想用pyspark,所以没有安装scala,最后测试spark-shell时老是没有系统文件(这是踩的第二个坑)

    b)配置scala环境变量:
    变量名SCALA_HOME,变量值D:\system\scala-2.11.8,然后到PATH中配置路径%SCALA_HOME\bin

    3、安装spark:

    a) 使用版本:spark-2.4.3-bin-hadoop2.7.tgz
    spark下载地址

    b)配置环境变量

    变量名SPARK_HOME,变量值D:\system\spark-2.4.3-bin-hadoop2.7,然后到PATH中配置路径%SPARK_HOME\bin

    c) 测试:spark-shell

    4、安装hadoop

    a)根据spark和winutils的版本来选择hadoop版本号

    • 根据spark在官网下载的时候会提醒下载的hadoop版本
    • 去 [https://github.com/steveloughran/winutils] 选择你安装的Hadoop版本号,然后进入到bin目录下,找到 winutils.exe文件,下载文件,放到hadoop\bin下的文件夹。
    • 替换hadoop中的bin和etc https://github.com/sardetushar/hadooponwindows
      在window下为了不装cygwin,参考了下面的博客,使得能够在windows下使用hadoop,替换 原来的bin和etc,然后修改其中的core-site.xml和hdfs-site.xml的参数,详情可见参考博客,我是用的是hadoop-2.8.3的版本,可以使用。

    b)配置环境变量

    变量名HADOOP_HOME,变量值D:\system\hadoop-2.8.3\,然后到PATH中配置路%HADOOP_HOME\bin
    c)启动hadoop,在cmd中先格式化hadoophadoop namenode -format,然后进入hadoop-2.8.3 / sbin中使用start-all.cmd启动hadoop和yarn。然后进入网页版进行测试,hadoophttp://localhost:8088和namenode<>

    5、安装pyspark

    a) 复制spark-2.4.3-bin-hadoop2.7\python\pyspark文件夹,以及解压spark-2.4.3-bin-hadoop2.7\python\lib\py4j-0.10.7-src.zip,到Anaconda3\pkgs文件夹下

    b)测试:在命令行中输入python,import pyspark

    6、hive的安装

    a)安装地址
    b)设置环境变量,HIVE_HOME,变量值为D:\system\hive-2.1.1\,然后到PATH中配置路由%HIVE_HOME\bin
    c)复制mysql驱动jar到$HIVE_HOME/lib下。mysql的jar包下载地址
    d)参数的设置,修改hive-site.xml中的文件存放地址和数据库的连接,具体可参考下边博客【hive配置参数的参考】
    4)启动hive,使用hive之前必须要先启动hadoop和hdfs,启动之后在cmd命令中输入hive启动

    思考:看了网上的教程总觉得可以直接下载pyspark的安装库,不用那么麻烦的,哪位小伙伴可以试试直接在anaconda环境中conda install pyspark 试试,能安装使用的话望告知哈

    参考博客:
    hadoop的搭建和参数配置
    hive搭建与初始化的参考
    hive配置参数的参考

    相关文章

      网友评论

          本文标题:windows10 下Spark+Hadoop+hive+pys

          本文链接:https://www.haomeiwen.com/subject/jmdilctx.html