美文网首页Spark学习之路程序员spark
Spark 开发环境搭建(三)- Hadoop安装

Spark 开发环境搭建(三)- Hadoop安装

作者: kakasyw | 来源:发表于2016-07-13 21:01 被阅读718次

    三、Hadoop集群安装

    1. 下载hadoop软件

    地址:http://mirrors.hust.edu.cn/apache/hadoop/core/hadoop-2.7.2/hadoop-2.7.2.tar.gz

    2. 安装

    hadoop的安装相对来说很简单,只需要解压,并添加环境变量即可。

    2.1 解压

    tar zxvf hadoop-2.7.2.tar.gz
    

    将hadoop的路径添加到环境变量中,
    我的hadoop安装目录为

    /home/hadoop/package/hadoop-2.7.2    // 根据个人设置而定
    

    2.2 设置环境变量

    sudo vim /etc/profile
    

    添加如下内容:

    export HADOOP_HOME=/home/hadoop/package/hadoop-2.7.2
    export PATH=.:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH
    

    使修改立刻生效

    source /etc/profile
    

    2.4 Hadoop 配置

    所有的配置都在/hadoop-2.7.2/etc/hadoop/目录下完成, 具体每个配置文件的含义在后续的开发过程中会进行解释和说明。

    2.4.1 配置slaves
    vim slaves
    

    添加slave机器,测试集群中只有两台slave,如下:

    slave1
    slave2
    

    2.4.2 在hadoop-env.sh 和yarn-env.sh中配置java路径

    # The java implementation to use.
    export JAVA_HOME=/usr/java/jdk1.8.0_91 // 后面的地址根据自己系统进行修改
    

    找到上面那个地方,修改后面java的地址

    2.4.3 修改core-site.xml配置

    打开core-site.xml文件,初始状态下,文件内只有一些注释,没有具体的设置,添加一下内容:

    <configuration>
            <property>
                    <name>fs.defaultFS</name>
                    <value>hdfs://master:9000</value>
            </property>
            <property>
                    <name>hadoop.tmp.dir</name>
                    <value>file:/home/hadoop/package/hadoop-2.7.2/tmp</value>
            </property>
            <property>
                    <name>io.file.buffer.size</name>
                    <value>131702</value>
            </property>
    </configuration>
    

    备注:前两个设置是必须的,后面可以不加。

    2.4.4 修改hdfs-site.xml配置

    打开hdf-site.xml文件,默认状态没有其他配置,添加一下内容:

    <configuration>
    <property>
            <name>dfs.namenode.name.dir</name>
            <value>file:/home/hadoop/package/hadoop-2.7.2/hdfs/name</value>
        </property>
        <property>
            <name>dfs.datanode.data.dir</name>
            <value>file:/home/hadoop/package/hadoop-2.7.2/hdfs/data</value>
        </property>
        <property>
            <name>dfs.replication</name>
            <value>2</value>
        </property>
        <property>
            <name>dfs.namenode.secondary.http-address</name>
            <value>master:9001</value>
        </property>
        <property>
    <name>dfs.webhdfs.enabled</name>
    <value>true</value>
        </property>
    
    </configuration>
    

    2.4.5 修改map-red.xml配置

    初始时,/etc/hadoop/目录下没有这个文件,只有它的模板文件,mapred-site.xml.template,那么需要复制出来这个文件,

    cp mapred-site.xml.template mapred-site.xml
    

    打开文件,添加一下内容:

    <configuration>
    <property>
            <name>mapreduce.framework.name</name>
            <value>yarn</value>
        </property>
        <property>
            <name>mapreduce.jobhistory.address</name>
            <value>master:10020</value>
        </property>
        <property>
            <name>mapreduce.jobtracker.http.address</name>
            <value>master:50030</value>
        </property>
        <property>
            <name>mapreduce.jobhistory.webapp.address</name>
            <value>master:19888</value>
        </property>
    </configuration>
    

    2.4.5 修改yarn-site.xml 配置

    打开yarn-site.xml,添加一下内容:

    <property>
            <name>yarn.nodemanager.aux-services</name>
            <value>mapreduce_shuffle</value>
        </property>
        <property>
            <name>yarn.nodemanager.auxservices.mapreduce.shuffle.class</name>
            <value>org.apache.hadoop.mapred.ShuffleHandler</value>
        </property>
        <property>
            <name>yarn.resourcemanager.address</name>
            <value>master:8032</value>
        </property>
        <property>
            <name>yarn.resourcemanager.scheduler.address</name>
            <value>master:8030</value>
        </property>
        <property>
            <name>yarn.resourcemanager.resource-tracker.address</name>
            <value>master:8031</value>
        </property>
        <property>
            <name>yarn.resourcemanager.admin.address</name>
            <value>master:8033</value>
        </property>
        <property>
            <name>yarn.resourcemanager.webapp.address</name>
            <value>master:8088</value>
        </property>
    </configuration>
    

    以上操作就是对三台hadoop集群的简单配置,现在还不能测试集群,因为另外两台机器还没有创建,等我们安装完所有的配置之后,选择virtualbox clone命令就可以得到出IP以外完全一样的机器了。
    转载请注明出处:http://www.jianshu.com/p/d54528d6d513

    相关文章

      网友评论

        本文标题:Spark 开发环境搭建(三)- Hadoop安装

        本文链接:https://www.haomeiwen.com/subject/tuqejttx.html