大数据部门组织架构
-
平台组
- Hadoop Flume Kafka Hbase Spark 框架搭建
- 集群性能测试
- 集群性能调优
-
数据仓库组
- erl工程师 数据清洗
- hive工程师 数据分析 数据仓库建模
-
数据挖掘组
- 算法工程师
- 推荐系统工程师
- 用户画像工程师
-
报表开发组
- 报表开发组 javaEE开发
hadoop
- common
- hdfs
- yarn
- mapreduce
image.png
name node 是什么?
sbin/hadoop-daemon.sh start namenode
sbin/hadoop-daemon.sh start datanode
-
hdfs有两个核心namenode(一个主节bai点),datanode(多个从du节点),
datanode主要是存储数据的,
namenode一是管理文件系统文件的元数据信息(包括文件名称、大小、位置、属性、创建时间、修改时间等等),二是维护文件到块的对应关系和块到节点的对应关系,三是维护用户对文件的操作信息(文件的增删改查) -
相当于一个领导者,负责调度 比如你需要存du一个640m的文件 如果按照64m分块,那么namenode就会把这10个块(这里不考虑副本)分配到集群中的datanode上 并记录对于关系 。当你要下载这个文件的时候namenode就知道在那些节点上给你取这些数据了。。。它主要维护两个map 一个是文件到块的对应关系 一个是块到节点的对应关系。
这些日志分别代表什么?
hadoop-root-datanode-master.log
hadoop-root-namenode-master.log
SecurityAuth-root.audit
hadoop-root-datanode-master.out
hadoop-root-namenode-master.out
集群的配置信息
http://39.102.32.141:50070/dfshealth.html#tab-overview
创建文件目录
bin/hdfs dfs 固定格式
创建目录
bin/hdfs dfs -mkdir -p /user/yuan/input
查看目录
bin/hdfs dfs -ls /
上传本地文件
bin/hdfs dfs -put input/wc.input /user/yuan/input
使用hdfs文件系统执行wordcount
hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.6.jar wordcount /user/yuan/input /user/yuan/ouput
查看执行后的文件
bin/hdfs dfs -cat /user/yuan/ouput/p*
bin 脚本
etc 配置文件
include
lib
libexec
sbin 停止启动集群
share 说明文档 案例
网友评论