腾讯云搭建伪分布式Hadoop集群

作者: Manfestain | 来源:发表于2020-03-29 16:18 被阅读0次

    所谓伪分布式模式,就是一种单机模式。实际情况中只有一个节点(主机),适合于学习,但不适用于实际的开发环境。这也是官方提供的模式之一。具体的配置过程也可以参照https://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-common/SingleCluster.html

    环境

    1. 腾讯云服务器一台(单核2G内存,50G硬盘,1M带宽)
    2. Ubuntu16.04
    3. jdk版本及下载链接:https://repo.huaweicloud.com/java/jdk/8u202-b08/
    4. hadoop版本及下载链接:http://mirror.bit.edu.cn/apache/hadoop/common/

    1. 具体步骤:

    1. 安装jdk并配置好环境变量
    2. 安装hadoop并配置好环境变量,可参考https://www.jianshu.com/p/06bbc1732bc9
    3. 进入/hadoop-x.x.x/etc/hadoop目录,修改Hadoop配置文件:

    3.1 修改core-site.xml文件

    <configuration>
        <property>
            <name>fs.defaultFS</name>
            <value>hdfs://腾讯云内网ip地址:9000</value>
        </property>
    
        <property>
            <name>hadoop.tmp.dir</name>
            <value>/opt/module/hadoop-2.7.7/data/tmp</value>
        </property>
    </configuration>
    

    注意:fs.defaultFS是本机的访问路径;hadoop.tmp.dir是数据的保存路径

    3.2 修改hdfs-sit.xml文件

    <configuration>
        <property>
            <name>dfs.replication</name>
            <value>1</value>
        </property>
    </configuration>
    

    注意:dfs.replication是指数据的副本数,默认为3

    3.3 修改hadoop-env.sh文件

    expert JAVA_HOME=你的jdk安装路径
    

    注意:这里的JAVA_HOME必须替换为你的安装路径

    4. 启动集群

    4.1 格式化NameNode,在第一次启动时需要格式化,以后就不需要了(并且不要总格式化)
    $ bin/hdfs namanode -format
    4.2 启动NameNode
    $ sbin/hadoop-daemon.sh start namenode

    hadoop-daemon.sh是Hadoop 的守护进程

    4.3 启动DataNode
    $ sbin/hadoop-daemon.sh start datanode

    5. 查看集群

    5.1 使用jps查看NameNode和DataNode的后台进程


    jps是jdk的查看进程管理,ps是Linux的进程管理。如果jps命令失效,尝试$ source /etc/profile,使配置文件生效。

    5.2 查看启动情况,在电脑浏览器中输入腾讯云服务器的公网IP地址:50070,看到如下界面表示Hadoop伪分布式搭建成功。


    2. WordCount案例再尝试

    此时我们的Hadoop已经启动,接下来尝试操作HDFS。Hadoop 提供了一个用于操作HDFS的Shell,在hadoop-x.x.x bin/hdfs中。

    注意:HDFS拥有一套与Linux独立的文件系统,它也有一个根目录/,如果要操作HDFS文件系统,只需要在命令的开头加上bin/hdfs dfs -命令。例如,在HDFS中建立一个目录$ bin/hdfs dfs -mkdir -p /user/hadoop1/input。此时,相对于HDFS而言,Hadoop-x.x.x/为localhost目录。

    我们可以在5.2步骤中生成的页面中查看HDFS文件。



    进入HDFS文件系统:


    接下来,我们可以在HDFS文件系统上重新运行WordCount案例。关于本地模式的WordCount可以参考https://www.jianshu.com/p/06bbc1732bc9,其中有wcinput/wc.input的具体创建方式。
    1. 将locahost下的文件上传到HDFS中
    $ bin/hdfs dfs -put wcinput/wc.input /user/hadoop1/input

    将localhost目录下(hadoop-x.x.x/wcinput/)的wc.input上传到/user/hadoop1/input目录下

    2. 在hadoop-x.x.x/目录下运行WordCount案例
    $ bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-x.x.x.jar wordcount /user/hadoop1/input /user/hadoop1/output

    运行结果保存在/user/hadoop1/output/目录下

    3. 查看运行结果,此时可以在浏览器中查看运行结果


    至此,我们的Hadoop 伪分布模式已经搭建成功!
    开始愉快的学习吧~

    相关文章

      网友评论

        本文标题:腾讯云搭建伪分布式Hadoop集群

        本文链接:https://www.haomeiwen.com/subject/gxcuuhtx.html