Xzg大数据实践课本总结V3.0
第一章
概述
三部分
1.什么是Hadoop:阿帕奇基金会开源的一个具有可靠性和扩展性的计算存储系统
2.Hadoop四部分:
Hadoop-common(支撑其他模块)
hdfs(支持高吞吐量访问)
hadoop-yarn(资源管理任务调度框架)
hadoop-mapreduce(并行处理大数据yarn基本系统)
3.阿帕奇与Hadoop相关项目:
HBASE(一个分布式的面向列的nosql开源数据库,主要解决非关系型数据存储问题)
hive(Hadoop上的数据仓库基础架构,将结构化的数据映射成表)
mahout(可扩展的机器学习算法实现包括聚类,分类,推荐过滤,频繁子项挖掘)
pig(大规模数据分析平台)
spart(快速通用的集群计算系统)
zookeeper(能够高校开发和维护分布式的开放源码的应用协调服务)
第二章
Hadoop环境搭建
三部分
1.安装vmware:下一步...
2.安装linux:
Linux四部分(1.Linux内核2.GNU组件3.图形化界面4.软件)
三个网络(桥接 NAT仅主机)
三个图形化界面(Xterm Konsole Gnome terminal)
两个操作实例1设置ip 2设置主机名映射
3.安装hadoop:
hadoop(安装JAVA)1.修改环境变量/etc/profile(hadoop-env.sh)四个文件(core-site.html,hdfs-site.html,mapred-site.xml,yarn-site.xml)2.激活配置格式化节点开启服务jps
ssh1.进入ssh 2.创建密钥对(ssh-Keygen -t rsa),设置主机免密登录(ssh-copy-id simple02)3.主机登陆simple02
第三章
Hbase
三部分
1.Shell命令: hdfs dfs-ls(hadoop fs,hadoop dfs)
(-help-appendTofile-cat-checksun-chgrp-chmod-chown-copyFromLocal-copyToLocal-count- count-cp-rmr-touchz-rmdir-movefromlocal)
2.Java的API:创建lib,复制jar包,buidPath
3.远程连接:RPC 远程过程调用协议,网络层协议通过TCP/UDP,跨运输层应用层,不需要了解底层,更容易
RPC采用客户服务器模式:1编写接口2编写服务器端3编写客户端(需要实际去看看)
第四章
MapReduce
三部分
1.MapReduce概念
什么是MapReduce:是一种思想(分而治之,迭代汇总),一种分布式计算模型(分而 治 之map(),迭代汇总reduce()),可以解决离线海量数据计算问题,不能解决实时 数据分析处理
数据类型:boolean,byte,int’float,long,double(writable实现后面加writable如 Vintwritable,Vlongwritable)
序列化机制:
序列化(结构化对象转字节流)
反序列化(字节流转结构化对象)
与JAVA序列化区别(Hadoop可复用对象,提高应用效率)
Hadoop序列化特点(紧凑,快速,可扩展,互操作,)
Hadoop序列化作用(分布式环境下进程间通信+永久存储,Hadoop节点间通信)
2.MapReduce架构
Shuff e
1shuffe(map输出为reduce输入)
2map端不写入磁盘写入内容,一定数量写入磁盘,过程中排序合并分区
3reduce端以HTTP协议输出partition复制到缓存,进行mergesort(归并排序),同key排序集中
3.Mapreduc接口类
输入类:FileInputFormate,textinputformate,combinefileinputformate, keyvaluetextinputformate, Nlineinputformate
输出类:textoutputformate,squencefileoutputformate,squencefileasoutputformate, mapfileoutputformat,mutipleoutputformat
第五章
Yarn
两部分
1.概述
MRv2(mapreducVersion2.0)(yarn)原理:Jobtracker分为两部分,资源管理和工作任务,具体有一个sourcemanager和一个nodemanager,sourcemanager接受客户端请求,产生MRAppMaster进程,MRAppMaster分配任务到其他节点并产生TaskMaster
Yarn组成五部分:sourcemanager,nodemanager,MRAppMaster,container,maptask,reducetask
2.执行过程
Yarn执行步骤三端
Resourcemanager端:1,client向resourcemanager提交任务2,resourcemanager创建container告知nodemanager启动MRAppmaster
Nodemanager端:3,启动MRAppmaster4,完成任务向sourcemanager汇报
MRAppMaster:5,与resourcemanager交互,获取资源6,跟nodemanager通信,启动Maptask或reducetask7,向resourcemanager汇报工作
考后总结:
环境变量配置细看端口50070 8088 ssh22号端口
代码细看
网友评论