记录一次 hadoop+tornado 简单实践

作者: kur0mi | 来源:发表于2018-08-16 19:11 被阅读55次

记录一次 hadoop+tornado 简单实践
记录一次 hadoop+tornado 简单实践（二） -- h
如果这辈子让我推荐1本书，我选《瓦尔登湖》@007不写就出局
TensorFlow 1.4 的安装
记录2016
python web（bottle框架）知行合一之-简单知识付费
「大道至简」周检视|（19.08.05-08.11)
【精时力管理】时间记录02
沉淀知识最好的方法——记笔记（误区+正确方法）
“向柳比歇夫学时间记录”实践日志6

前言

本篇作为备忘录之用，仅记录过程，不记录详细步骤，有空补充

hadoop 伪集群搭建

目标：三台虚拟机/容器
- 配置网络
  - 主机名分别修改为 master slave1 slave2
  - 配置网络（固定 ip）
    
    分别为 192.168.243.101-103
  - 配置 /etc/hosts 本地解析
    
    将主机名解析到对应节点的 ip
- 配置 ssh
  - 安装 ssh
    
    yum -y install openssh-server openssh-clients
  - ssh-keygen 生成密钥对
  - ssh-copy-id 节点名 ~/.ssh/id_rsa.pub 将公钥发送给其他两个节点
  - 消除第一次 ssh 登录的 yes
- 安装 java 环境
  - 下载解压 jdk
  - 修改 ~/.bashrc 或 /etc/profile 添加 JAVA_HOME 和 JRE_HOME
  - 有些 jdk 版本需要添加 CLASSPATH
  - export PATH=$PATH:$JAVA_HOME/bin:$JRE_HOME/bin
  - 刷新配置
  - 执行 java -version 验证
- 关闭防火墙并禁止防火墙开机启动
- 安装 hadoop
  - 下载 hadoop-2.6.5.tar.gz 并解压安装到 hadoop-2.6.5 目录下
  - 添加环境变量
    
    export HADOOP_HOME={hadoop 安装目录}
    
    export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
  - 刷新配置
  - 执行 hadoop version 验证
- 配置 hadoop
  - 进入 hadoop 安装目录
  - 创建 tmp logs hdfs/name hdfs/data 四个文件夹
  - 进入 {hadoop 安装目录}/etc/hadoop 修改配置文件
    - hadoop-env.sh
      
      确保第25行 ${JAVA_HOME} 指向 jdk 安装目录
    - yarn-env.sh
    - slaves 修改为 slave1 和 slave2
    - mapred-site.xml
    - core-site.xml
    - hdfs-site.xml
    - yarn-site.xml
- 配置时间同步
  - 安装 ntpdate 同步软件 yum -y install ntp ntpdate
  - 与网络时间进行同步 ntpdate cn.pool.ntp.org
  - 把时间写入硬件进行锁定 hwclock --systohc
- 格式化 NameNode（由 master 执行）
  
  ./hdfs namenode -format
  
  如果看到 successfully formatted 和 Exitting with status 0 ，则表示操作成功
  
  如果出错，尝试删除 hdfs/name hdfs/data 文件夹，重新格式化
- 启动 hadoop
  
  执行 ./start-all.sh （依次启动 dfs 和 yarn）
  - jps 查看启动的进程
    
    master
    - NameNode # 即目录
    - SecondaryNameNode # 副节点，在 NameNode 故障时负责修复 NameNode
    - ResourceManager
    slave
    - DataNode # 数据
    - NodeManager
  - 打开 web 页面
    - {master 节点的 ip}:50070
      
      live Nodes 2
    - {master 节点的 ip}:8088
  - 上传下载文件
  - 最后运行 wordcount 程序
- 关闭集群
  
  stop-all.sh
  
  关闭虚拟机前一定要先关闭集群，否则可能使集群崩溃
eclipse 连接 hadoop 集群
hive 操作数据库
创建 flask 服务器
配置 hive 远程连接
前端 ajax
redis 缓存