企业级Hadoop集群部署
在网上看了一个挺不错的视频,整理了一下视频中的笔记.
1.节点角色分配
集中式Master,将SPOF单点集中到一起
NameNode,JobTracker/ResourceManager
Hive Metastore, HiveServer2
Impala StateStore, Catalog Server
Spark Master
把这些节点放在一起,方便备份
2.节点内核参数
- ulimit /etc/security/limits.conf 设置nofile
- THP(Transparent Huge Page),ACPI(电源管理,关掉),内存overcommit问题
- 不同功能的节点进行不同的设置
耗内存?swap(设置)?
需要高磁盘吞吐?
CPU,system load高节点
3.HDFS设置
- HDFS block size: dfs.block.size(推荐128M)
-Replication Factor: dfs.replication
-是否开启dfs.permissions,以及fs.permisssions.unmask-mode设置
-用户权限
-DataNode的dfs所在磁盘分区
4.资源分配
-CPU,内存,磁盘IO吞吐,网络吞吐
5.HDFS DataNode磁盘分区设置
HDFS中数据增长的过程可能会导致磁盘空间耗尽,将dfs所在目录单独挂载可避免dfs目录与根目录公用同一个磁盘分区,避免HDFS空间用满时根目录也无法写入文件,严重时可能造成系统 无法登录.
参数:dfs.data.dir
6.Hadoop集群问题
单点问题:
1.0中namenode单点故障,jobtracker单点故障.
2.0中resourceManager单点故障.
7.Impala服务的三个主要守护进程
StateStore Server:用于协调各个运行impalad的实例之间的信息关系,选择集群中一个节点安装.
Catalog Server:用来同步impala中执行的DDL.
impalad(impala daemon):impala的后台进程,需要安装在每一台数据节点上;
8.Yarn中类似MRv1中的JobTracker和TaskTracker两个功能组件的是什么?
ResourceManager和NodeManager
网友评论