美文网首页
Spark与Hadoop关联

Spark与Hadoop关联

作者: 0_oHuanyu | 来源:发表于2017-09-11 21:03 被阅读41次

    这种配环境的东西配过一次就忘了,还是记录一下吧。
    spark运行需要jdk,scala,hadoop。
    Hadoop是从cloudera官网下的cloudera manager虚拟机;
    jdk版本为1.8;
    scala版本为2.11。

    cloudera manager(以下简称CM)官网虚拟机下载页链接:https://www.cloudera.com/downloads/quickstart_vms/5-12.html
    spark官网下载页链接:https://spark.apache.org/downloads.html
    scala官网下载页链接:http://www.scala-lang.org/download/

    1. 下载与解压
      jdk下载要根据虚拟机是x86 还是x64选择,否则安不上。uname -a 可以查看当前os的版本。
      注意scala是要下载linux系统的版本哦,别在windows中下载传到虚拟机中才发现下错了。。。
      CM的下载也是需要选择虚拟机类型的,有vmware,virtualBox什么的。
      spark下载好之后,tar -zxvf 解压安装,简单不用说。

    2. 修改配置文件
      到spark解压的目录下,有个conf文件夹,里面放置了spark的配置文件。
      先修改这个:spark-env.sh,加入以下变量:
      HADOOP_CONF_DIR=/etc/hadoop/conf #这个是Hadoop的配置文件目录
      SPARK_MASTER_HOST=quickstart.cloudera #spark master的主机名
      SPARK_MASTER_WEBUI_PORT=8080 #查看master任务的web页面端口
      SPARK_MASTER_PORT=7077 #master的通信端口
      SPARK_WORKER_CORES=1 #worker核数
      SPARK_WORKER_MEMORY=2g #worker内存占用
      SPARK_WORKER_PORT=7078 #worker通信端口
      SPARK_WORKER_WEBUI_PORT=8081 #查看worker任务的web页面端口
      SPARK_WORKER_DIR=/home/cloudera/Downloads/temp #临时文件存放目录
      再修改这个:slaves
      这个不用解释了吧,输入worker主机名就好了
      再修改最后一个:spark-defaults.conf
      spark.master spark://quickstart.cloudera:7077 #设置spark任务提交的目标

    完成~
    在根目录输入bin/spark-shell 查看quickstart.cloudera:8080 ,如果application那一栏有东西就说明成功了。

    相关文章

      网友评论

          本文标题:Spark与Hadoop关联

          本文链接:https://www.haomeiwen.com/subject/jhzfsxtx.html