hadoop第五天

作者: d1450eb71426 | 来源:发表于2016-04-20 21:53 被阅读195次

Hadoop下载下来的是32位
云主机（华为）分为内网ip和外网ip
配置的时候要配内网ip和主机的映射关系
10台主机

集群规划：
主机名：ip：机器配置（出故障的时候可以判断是否是硬件原因）安装的软件运行的进程
（1）NameNode 搭配DFSZKFailoverController(监控namenode状态)
（2）resourceManager （nameNode要和resourceManager分开部署（占用大量资源）
（3）datanode nodemanager journalNode QuorumPeerMain(这些最好一起因为nodemanager要运行mapreducer最好从本地读数据（datanode保存了数据），journalNode存放共享的edits，journalNode进程数据存放在zookeeper上)
配置隔离机制
sshfence （controller进程出问题了但是没有宕掉，无法通知zookeeper）
shell(/bin/true) namenode和controller进程都出问题了，无法通知zookeeper 超时检测（重要加了这个HA解决方案，机器宕机也不怕））
slaves（配置的是datanode，也就是hdfs子节点）
集群进程停止顺序：namenode->datanode->journalnode->zkfc
集群进程启动顺序：namenode1,namenode2->datanode1,datanode2,datanode3->journal node1,journal node2,journal node3->zk
启动hdfs
启动namenode用ssh协议（主机名：starting namenode）(读配置文件hdfs.site.xml)
启动datanode(读配置文件slaves)
启动journalnode(读配置文件hdfs.site.xml)
启动zkfc(读配置文件hdfs.site.xml和namenode在一起)

启动yarn：
启动resourcemanager(读配置文件yar-site.xml)
启动nodemanager(读配置文件slaves)
8088是yarn的管理界面的端口，50070是hdfs管理界面的端口

zookeeper是用来协调namenode
zookeeper最好基数台，最好3台，保证高可靠性，可以运行1台down掉
保证一半以上的机器运行就可以
zookeeper没必要很多，3台，5台，7台（2000个主机）
zookeeper可以使数据同步
zookeeper可以确保整个nemeservice下只有一个活跃的namenode
zookeeper可以确保Hbase只有一个老大HMaster

zookeeper可以同步数据只能同步zookeeper文件系统下的目录
namenode非常重要，一个namenode宕了集群就不可用
Hadoop2.0解决了这个问题：对namenode进行了抽象nameservice
一个nameservice有两个namenode
Hadoop HA原理
解决activie namenode和standby namenode同步的解决方案
1：NFS（网络文件系统）
2.journalNode（依赖zookeeper）存放edits文件

mrappmaster是用来监控mr任务，
yarnchild是任务执行启动的线程

mapreducer只有map也能运行，sqoop就是只执行mapper阶段
sqoop需要依赖hdfs和yarn
sqoop是数据迁移工具
sqoop的默认分隔符是‘，’，导入时改了分隔符，导出的时候也要设置对应的
shell很重要
set -x可以显示变量的值
多人修改一个文件会产生一个swap文件，要修改的时候选择delete
定时器用的非常多：crontab

网友评论

本文标题：hadoop第五天

本文链接：https://www.haomeiwen.com/subject/flqblttx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

hadoop第五天

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读