美文网首页眼君的大数据之路
实操 - Centos7虚拟机搭建Spark2.0.1-with

实操 - Centos7虚拟机搭建Spark2.0.1-with

作者: 眼君 | 来源:发表于2023-02-04 20:11 被阅读0次

    在进行以下操作前,以经在虚拟机中安装了Hadoop集群环境。

    下载解压

    将spark下载解压到虚拟机中:

    tar -zxvf spark-2.0.2-bin-without-hadoop.tgz -C ./
    

    修改配置文件

    以下命令进入spark配置文件所在目录:

    cd /home/spark-2.0.2-bin-without-hadoop/conf
    

    修改配置文件spark-env.sh.template名称为spark-env.sh,并填写如下内容:

    export SPARK_DIST_CLASSPATH=$(/home/hadoop-2.7.7/bin/hadoop classpath)
    export HADOOP_CONF_DIR=/home/hadoop-2.7.7/etc/hadoop
    export SPARK_MASTER_IP=192.168.2.7
    export JAVA_HOME=/home/jdk1.8.0_181
    

    修改配置文件slaves.template名称为slaves,填写slave节点的host:

    slave1
    slave2
    

    到这里,spark配置文件修改完毕,只需将spark分发到所有节点即可。

    配置环境变量

    .bash_profile文件添加以下内容:

    export SPARK_HOME=/home/spark
    export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin
    

    启动集群

    启动完Hadoop集群的HDFS和YARN以后,执行以下命令就可以启动集群的master和work:

    start-master.sh
    start-slaves.sh
    

    可以通过master:8080访问spark的Web端页面。

    使用集群

    可以用以下命令测试是否能用yarn来执行这个任务:

    ./spark-submit \
    --class org.apache.spark.examples.SparkPi \
    --master yarn \
    --driver-memory 512m \
    --executor-memory 512m \
    --total-executor-cores 2 \
    /home/spark-2.0.2-bin-hadoop2.7/examples/jars/spark-examples_2.11-2.0.2.jar \
    100
    

    由于是虚拟机环境,有可能Spark集群会报如下错误:

    [YARN] 2.2 GB of 2.1 GB virtual memory used. Killing container.
    

    这个报错是虚拟内存超出限制,当使用虚拟机或者虚拟化服务器配置集群,很可能会报这个错误,这是因为有虚拟内存的设置,而使用的过程中超出了虚拟内存的限制。解决办法是在etc/hadoop/yarn-site.xml文件中,修改检查虚拟内存的属性为false:

    <property>  
        <name>yarn.nodemanager.vmem-check-enabled</name>  
        <value>false</value>  
    </property>
    

    另外,内存设置的太小导致内存溢出也可能报错,这时需要在yarn-site.xml中设置比较大的内存设置,或者jvm的内存也要增加,就可以解决。

    相关文章

      网友评论

        本文标题:实操 - Centos7虚拟机搭建Spark2.0.1-with

        本文链接:https://www.haomeiwen.com/subject/wbnohdtx.html