美文网首页大数据玩转大数据大数据,机器学习,人工智能
大数据入门学习之环境搭建:VM、CentOS7安装,jdk1.8

大数据入门学习之环境搭建:VM、CentOS7安装,jdk1.8

作者: bd8941f5f5cc | 来源:发表于2019-01-20 15:41 被阅读7次


    一:环境搭建:VM、CentOS7安装及网络配置

    大数据入门首先需要搭建环境,接下来的三篇文章均是环境搭建部分的内容。

    首先我们要安装虚拟机及linux系统

    一、安装虚拟机VM

    官网下载VM虚拟机:这里下载的VMware-workstation-full-10.0.4,好像往后的高版本需要win系统为64位,根据自己的需求下载安装。

    二、安装CentOS7

    1、官网下载:我下载的是CentOS-7-x86_64-DVD-1804.iso文件。

    2、安装过程(略):自行百度安装,按照步骤安装无问题,可根据需要选择最小化安装,安装至最后一步骤时最好创建一个用户。

    3、复制出另外两台虚拟机,并对每台虚拟机命名为master、slave1、slave2。

    三、网络配置

    1、配置网络为NAT模式,三台均需要配置;

    2、修改网卡配置,三台均需要修改

    cd /etc/sysconfig/network-scripts

    vim ifcfg-ens33 

    添加内容:IPADDR=192.168.198.21   //ip地址

    添加内容:NETMASK=255.255.255.0  

    添加内容:GATEWAY=192.168.198.2  //网关

    添加内容:DNS1=8.8.8.8

    3、配置完成后重启网络服务

    /etc/init.d/network restart  或

    service network restart

    4、测试访问外网是否通

    curl www.baidu.com

    ping www.baidu.com

    5、分别用securecrt连接centos

    5.1.如何安装及注册SecureCRT教程

    http://blog.csdn.net/stephenbruce/article/details/48649625

    5.2.如何用SecureCRT连接vm的虚拟机教程:

    http://www.cnblogs.com/shuangxinye/p/6283171.html

    6、修改hosts

    vim /etc/hosts

    7、修改hostname

    hostnamectl set-hostname master  

    使用这种方式修改,可以永久性的修改主机名称!

    二:环境搭建:jdk1.8安装及环境配置

    接下来就要安装在操作系统上运作的大数据核心hadoop分布式系统基础架构!Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS,Hadoop的框架最核心的设计就是:HDFS和MapReduce:HDFS为海量的数据提供了存储,而MapReduce为海量的数据提供了计算,因此安装完hadoop以后我们可以进行hdfs文件存储、访问,也可以进行mapreduce实践操作,真正体验户在不了解分布式底层细节的情况下,开发分布式程序,充分利用集群的威力进行高速运算和存储。

    首先要明白:hadoop需要以下两个软件才能进行搭建

    hadoop-2.6.1.tar.gz

    jdk-8u172-linux-x64.tar.gz

    本文我们先安装java jdk1.8.0

    一、设置共享文件夹

    0. 安装vmware tools,在虚拟机中版本更新里面选取安装即可,若不成功,按如下安装:

    1. mount /dev/cdrom/media 加载文件系统到指定的加载点,常用于挂在cdrom,使我们可以访问cdrom中的数据;

    2. tar xvzf VmwareTools-9.6.2-/688356.tar.gz将安装文件夹拷贝至自己的目录中并解压;

    3../vmware-install.pl进入解压好的目录后运行此安装命令;

    4. vmware-hgfsclient查看共享目录此时应显示共享目录share-folder;

    5. vmhgfs-fuse .host:/ /mnt/hgfs挂载目录;

    6. cd /mnt/hgfs/share-folser进入目录。

    二、安装jdk1.8

    0. 从共享目录拷贝至安装目录并解压:

    cp jdk-8u172-linux-x64.tar.gz /usr/local/src

    tar xvzf jdk-8u172-linux-x64.tar.gz

    1. 设置环境变量

    vim ~/.bashrc

    添加java路径如下:

    #java  

    export JAVA_HOME=/usr/local/src/jdk1.8.0_172

    export CLASSPATH=.:$CLASSPATH:$JAVA_HOME/lib

    export PATH=$PATH:$JAVA_HOME/bin

    2. 检查是否安装成功

    java运行java;

    which java查看java信息;

    java -version查看java版本。

    3. 拷贝解压包至slave1、slave2中并设置.bashrc文件

    scp -rp jdk1.8.0-172 192.168.198.22:/usr/local/src/

    scp -rp jdk1.8.0-172 192.168.198.23:/usr/local/src/

    .bashrc文件配置和master中一样!

    4. 分别检查三台机器都能运行java

    至此java安装完成!

    三、先安装一些依赖包

    yum -y update #更新yum包

    yum install -y vim

    yum install -y net-tools

    yum install -y gcc

    yum install -y prel

    yum install -y kernel-headers

    三:环境搭建:Hadoop2.0安装及配置

    首先要明白:hadoop需要以下两个软件才能进行搭建

    hadoop-2.6.1.tar.gz

    jdk-8u172-linux-x64.tar.gz(上篇已介绍)

    一、安装Hadoop2.6.1并配置

    0. 下载安装包至共享目录:

    1.cp hadoop-2.6.1.tar.gz /usr/local/src拷贝安装包;

    2.tar xvzf hadoop-2.6.1.tar.gz解压;

    3. 创建临时目录及文件目录:

    mkdir /usr/local/src/hadoop-2.6.1/tmp

    mkdir /usr/local/src/hadoop-2.6.1/dfs/name

    mkdir /usr/local/src/hadoop-2.6.1/dfs/data

    4. 修改hadoop配置文件:

    cd /usr/local/src/hadoop-2.6.1/etc/hadoop

    1) vim hadoop-env.sh

    export JAVA_HOME=/usr/local/src/jdk1.8.0_172

    2) vim yarn-env.sh

    export JAVA_HOME=/usr/local/src/jdk1.8.0_172

    3) vim slaves

    slave1

    slave2

    4) vim core-site.xml

    <configuration>

    <property>

    <name>fs.defaultFS</name>

    <value>hdfs://192.168.198.21:9000</value>

    </property>

    <property>

    <name>hadoop.tmp.dir</name>

    <value>file:/usr/local/src/hadoop-2.6.1/tmp</value>

    </property>

    </configuration>

    5) vim hdfs-site.xml

    <configuration>

    <property>

    <name>dfs.namenode.secondary.http-address</name>

    <value>master:9001</value>

    </property>

    <property>

    <name>dfs.namenode.name.dir</name>

    <value>file:/usr/local/src/hadoop-2.6.1/dfs/name</value>

    </property>

    <property>

    <name>dfs.datanode.data.dir</name>

    <value>file:/usr/local/src/hadoop-2.6.1/dfs/data</value>

    </property>

    <property>

    <name>dfs.repliction</name>

    <value>2此处设置为2比较合适,因为从节点为2个

    </property>

    </configuration>

    6) vim mapred-site.xml(注:此文件需自己创建,不能用mapred-site.xml.template)

    <configuration>

    <property>

    <name>mapreduce.framework.name</name>

    <value>yarn</value>

    </property>

    </configuration>

    7) vim yarn-site.xml

    <configuration>

    <property>

    <name>yarn.nodemanager.aux-services</name>

    <value>mapreduce_shuffle</value>

    </property>

    <property>

    <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>

    <value>org.apache.hadoop.mapred.ShuffleHandler</value>

    </property>

    <property>

    <name>yarn.resourcemanager.address</name>

    <value>master:8032</value>

    </property>

    <property>

    <name>yarn.resourcemanager.scheduler.address</name>

    <value>master:8030</value>

    </property>

    <property>

    <name>yarn.resourcemanager.resource-tracker.address</name>

    <value>master:8035</value>

    </property>

    <property>

    <name>yarn.resourcemanager.admin.address</name>

    <value>master:8033</value>

    </property>

    <property>

    <name>yarn.resourcemanager.webapp.address</name>

    <value>master:8088</value>

    </property>

    </configuration>

    5.配置环境变量(注:三台机器都要配置)

    vim ~/.bashrc

    #hadoop

    export HADOOP_HOME=/usr/local/src/hadoop-2.6.1

    export PATH=$PATH:$HADOOP_HOME/bin

    source ~/.bashrc

    6. 拷贝安装包

    scp -rp hadoop-2.6.1 192.168.198.22:/usr/local/src/

    scp -rp hadoop-2.6.1 192.168.198.23:/usr/local/src/

    7. 启动集群

    在启动集群之前需按顺序做两件事:

    1) 

    关闭防火墙:

    firewall-cmd --state 此时显示running

    systemctl disabled firewalld 或

    systemctl stop firewalld

    在查看防火墙应该为not running即已关闭

    关闭Selinux:

    vim /etc/selinux/config

    将SELINUX=””改为disabled重启后永久关闭

    2) 格式化

    hadoop namenode -formate

    注:只能格式化一次,如果多次格式化可能引起错误,此时需要将之前建的tmp、data、name文件夹删除再重新建,在重新格式化!

    3) 启动集群

    cd /hadoop-2.6.1/sbin

    ./start-all.sh

    4) 查看集群状态

    master:

    slave1

    slave2:

    8. 设置互信

    1) 生成公钥

    ssh-keygen 回车回车回车

    2) 配置文件

    cd ~/.ssh进入隐藏目录

    获取master的公钥放在authorized_keys文件中:

    cat id_rsa.pub > authorized_keys

    将slave1、slave2的公钥复制到master上的authorized_keys文件中

    再将authorized_keys文件拷贝至slave1、slave2上

    scp -rp authorized_keys 192.168.198.22:~/.ssh

    scp -rp authorized_keys 192.168.198.23:~/.ssh

    3) 检测互信是否成功

    在master上输入ssh salve1

    将会切换为slave1主机名,说明成功

    退出:exit

    9. 集群操作

    hadoop fs -ls /

    hadoop fs -put 1.data /

    等命令运行无误说明集群已经配置成功

    10. 关闭集群

    ./sbin/hadoop stop-all.sh

    至此,hadoop环境安装搭建完成,接下来可以进行实践了!

    对大数据的概念都是模糊不清的,大数据是什么,能做什么,学的时候,该按照什么线路去学习,学完往哪方面发展,想深入了解

    想学习的同学欢迎加入大数据学习qq群:458345782,有大量干货(零基础以及进阶的经典实战)分享给大家

    并且有清华大学毕业的资深大数据讲师给大家免费授课,给大家分享目前国内最完整的大数据高端实战实用学习流程体系 。

    相关文章

      网友评论

        本文标题:大数据入门学习之环境搭建:VM、CentOS7安装,jdk1.8

        本文链接:https://www.haomeiwen.com/subject/gtbxjqtx.html