前言
本篇作为备忘录之用,仅记录过程,不记录详细步骤,有空补充
-
hadoop 伪集群搭建
目标:三台虚拟机/容器
-
配置 网络
-
主机名分别修改为 master slave1 slave2
-
配置网络(固定 ip)
分别为 192.168.243.101-103
-
配置 /etc/hosts 本地解析
将主机名 解析到 对应节点的 ip
-
-
配置 ssh
-
安装 ssh
yum -y install openssh-server openssh-clients
-
ssh-keygen 生成密钥对
-
ssh-copy-id 节点名 ~/.ssh/id_rsa.pub 将公钥发送给其他两个节点
-
消除第一次 ssh 登录的 yes
-
-
安装 java 环境
- 下载解压 jdk
- 修改
~/.bashrc
或/etc/profile
添加 JAVA_HOME 和 JRE_HOME - 有些 jdk 版本需要添加 CLASSPATH
export PATH=$PATH:$JAVA_HOME/bin:$JRE_HOME/bin
- 刷新配置
- 执行
java -version
验证
-
关闭防火墙 并 禁止防火墙开机启动
-
安装 hadoop
-
下载 hadoop-2.6.5.tar.gz 并解压安装到
hadoop-2.6.5
目录下 -
添加环境变量
export HADOOP_HOME={hadoop 安装目录}
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
-
刷新配置
-
执行
hadoop version
验证
-
-
配置 hadoop
-
进入 hadoop 安装目录
-
创建 tmp logs hdfs/name hdfs/data 四个文件夹
-
进入
{hadoop 安装目录}/etc/hadoop
修改配置文件-
hadoop-env.sh
确保第25行 ${JAVA_HOME} 指向 jdk 安装目录
-
yarn-env.sh
-
slaves 修改为 slave1 和 slave2
-
mapred-site.xml
-
core-site.xml
-
hdfs-site.xml
-
yarn-site.xml
-
-
-
配置时间同步
- 安装 ntpdate 同步软件
yum -y install ntp ntpdate
- 与网络时间进行同步
ntpdate cn.pool.ntp.org
- 把时间写入硬件进行锁定
hwclock --systohc
- 安装 ntpdate 同步软件
-
格式化 NameNode(由 master 执行)
./hdfs namenode -format
如果看到
successfully formatted
和Exitting with status 0
,则表示操作成功如果出错,尝试删除 hdfs/name hdfs/data 文件夹,重新格式化
-
启动 hadoop
执行
./start-all.sh
(依次启动 dfs 和 yarn)-
jps 查看启动的进程
master
- NameNode # 即目录
- SecondaryNameNode # 副节点,在 NameNode 故障时负责修复 NameNode
- ResourceManager
slave
- DataNode # 数据
- NodeManager
-
打开 web 页面
-
{master 节点的 ip}:50070
live Nodes 2
-
{master 节点的 ip}:8088
-
-
上传下载文件
-
最后运行 wordcount 程序
-
-
关闭集群
stop-all.sh
关闭虚拟机前一定要先关闭集群,否则可能使集群崩溃
-
-
eclipse 连接 hadoop 集群
-
hive 操作数据库
-
创建 flask 服务器
-
配置 hive 远程连接
-
前端 ajax
-
redis 缓存
网友评论