Hadoop大数据部门组织架构

作者: 程序男保姆 | 来源:发表于2020-08-12 15:33 被阅读0次

Hadoop大数据部门组织架构
华一笔记6
Hadoop基本知识点总结
Hadoop学习-基础篇
Hadoop应用架构
大数据基础概念
初识Hive和Hadoop 2020-04-11
组织架构及部门职责
Hadoop大数据平台架构与实践 | hadoop概述与安装
大数据开发必读书目（持续更新）

大数据部门组织架构

平台组
- Hadoop Flume Kafka Hbase Spark 框架搭建
- 集群性能测试
- 集群性能调优
数据仓库组
- erl工程师数据清洗
- hive工程师数据分析数据仓库建模
数据挖掘组
- 算法工程师
- 推荐系统工程师
- 用户画像工程师
报表开发组
- 报表开发组 javaEE开发

hadoop
- common
- hdfs
- yarn
- mapreduce

image.png

name node 是什么？

 sbin/hadoop-daemon.sh  start namenode 
 sbin/hadoop-daemon.sh  start datanode

hdfs有两个核心namenode(一个主节bai点),datanode（多个从du节点），
datanode主要是存储数据的，
namenode一是管理文件系统文件的元数据信息（包括文件名称、大小、位置、属性、创建时间、修改时间等等），二是维护文件到块的对应关系和块到节点的对应关系，三是维护用户对文件的操作信息（文件的增删改查）
相当于一个领导者，负责调度比如你需要存du一个640m的文件如果按照64m分块,那么namenode就会把这10个块（这里不考虑副本）分配到集群中的datanode上并记录对于关系。当你要下载这个文件的时候namenode就知道在那些节点上给你取这些数据了。。。它主要维护两个map 一个是文件到块的对应关系一个是块到节点的对应关系。

image.png

这些日志分别代表什么？

hadoop-root-datanode-master.log  
hadoop-root-namenode-master.log  
SecurityAuth-root.audit
hadoop-root-datanode-master.out  
hadoop-root-namenode-master.out

集群的配置信息
http://39.102.32.141:50070/dfshealth.html#tab-overview

创建文件目录
bin/hdfs dfs 固定格式
创建目录
bin/hdfs dfs -mkdir -p /user/yuan/input
查看目录
bin/hdfs dfs -ls /
上传本地文件
 bin/hdfs dfs -put input/wc.input /user/yuan/input

使用hdfs文件系统执行wordcount
 hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.6.jar wordcount /user/yuan/input /user/yuan/ouput

查看执行后的文件
bin/hdfs dfs -cat /user/yuan/ouput/p*

bin 脚本
etc 配置文件
include
lib
libexec
sbin 停止启动集群
share 说明文档案例