美文网首页
hadoop简介和配置

hadoop简介和配置

作者: 静听风雨落 | 来源:发表于2018-09-06 19:21 被阅读0次

    Hadoop包含三个模块:

      1、Hadoop Common:
                支持其他模块的工具模块
      2、Hadoop Distributed File System (HDFS):
                分布式文件系统, 提供对应用程序数据的高吞吐量访问.
                NameNode        //名称节点   --NN        放置目录
                DateNode          //数据节点   --DN        放置数据
                SecondaryNameNode    //辅助名称节点  --2NN    放置备份目录
      3、Hadoop YARN: 
                作业调度与集群资源管理的框架
      4、Hadoop MapReduce:
                基于yarn系统的对大数据集进行并行处理技术.
                 ResourceManager      //资源管理器  --RM
                 NodeManager             //节点管理器  --NM
    

    配置Hadoop

      1. Standalone/local
              独立/本地模式 (默认模式)
              查看文件系统的方式: hadoop fs -ls
              没有启动任何java进程
              用于测试和开发模式
      2. Pseudodistributed mode
              伪分布模式
              配置过程:
               a. core-site.xml
                   '''
                        <configuration>
                                 <property>
                                     <!-- 默认的文件系统 -->
                                     <name> fs.defaultFS</name>
                                     <value>hdfs://localhost/</value>
                                </property>
                        </configuration>
                   '''
               b. hdfs-site.xml
                  '''
                  <?xml version="1.0"?>
                  <configuration>
                        <property>
                              <!-- 副本数 -->
                              <name>dfs.replication</name>
                              <value>1</value>
                        </property>
                  </configuration>
                  '''
                c. mapred-site.xml
                    '''
                    <configuration>
                          <property>
                                 <!--   -->
                                 <name>mapreduce.framework.name</name>
                                 <value>yarn</value>
                          </property>
                    </configuraion>  
                    '''
                d. yarn.site.xml
                    '''
                    <configuration>
                          <property>
                                  <!-- 资源管理器 -->
                                  <name>yarn.resourcemanager.hostname</name>
                                  <value>localhost</value>
                          </property>
                           <property>
                                  <!-- 节点管理器 -->
                                  <name>yarn.nodemanager.aux-services</name>
                                  <value>mapreduce_shuffle</value>
                          </property>
                    </configuration>
                    '''
                  * e. 配置SSH
                      安全登录
                      1) 安装ssh
                                  $>sudo apt-get install ssh
                      2)生成秘钥对
                                  $>ssh-keygen -t  rsa -p ''  -f  ~/.ssh/id_rsa
                                  $>cd ~/.ssh           //查看生成的公私秘钥        
                      3)导入公钥数据到授权库    
                                  $>cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys    
                      4) 登录localhost
                                  $>ssh localhost                    //不需要密码
                      5)格式化hdfs文件系统
                                  $>hadoop namenode -format
                      6)启动所有进程
                                  $>start-all.sh
                      7)查看进程
                                   $>jps                 //共有五个进程 RM NM NN DN 2NN
                      8)查看文件系统
                                   $>hadoop  fs  -ls
                      9)创建文件系统
                                   $>hadoop fs -mkdir -p /user/ubuntu/data
                                   $>hadoop fs -ls -R /
      3. Fully distributed mode
              完全分布式

    相关文章

      网友评论

          本文标题:hadoop简介和配置

          本文链接:https://www.haomeiwen.com/subject/zkqewftx.html