Hadoop大数据实践总结

作者: 今天晴天_8c18 | 来源:发表于2019-07-05 16:36 被阅读0次

Xzg大数据实践课本总结V3.0

第一章

概述

三部分

1.什么是Hadoop：阿帕奇基金会开源的一个具有可靠性和扩展性的计算存储系统

2.Hadoop四部分：

Hadoop-common（支撑其他模块）

hdfs（支持高吞吐量访问）

hadoop-yarn（资源管理任务调度框架）

hadoop-mapreduce（并行处理大数据yarn基本系统）

3.阿帕奇与Hadoop相关项目：

HBASE(一个分布式的面向列的nosql开源数据库，主要解决非关系型数据存储问题)

hive（Hadoop上的数据仓库基础架构，将结构化的数据映射成表）

mahout(可扩展的机器学习算法实现包括聚类，分类，推荐过滤，频繁子项挖掘)

pig（大规模数据分析平台）

spart（快速通用的集群计算系统）

zookeeper（能够高校开发和维护分布式的开放源码的应用协调服务）

第二章

Hadoop环境搭建

三部分

1.安装vmware：下一步...

2.安装linux：

Linux四部分（1.Linux内核2.GNU组件3.图形化界面4.软件）

三个网络（桥接 NAT仅主机）

三个图形化界面（Xterm Konsole Gnome terminal）

两个操作实例1设置ip 2设置主机名映射

3.安装hadoop：

hadoop（安装JAVA）1.修改环境变量/etc/profile（hadoop-env.sh）四个文件（core-site.html，hdfs-site.html，mapred-site.xml，yarn-site.xml）2.激活配置格式化节点开启服务jps

ssh1.进入ssh 2.创建密钥对（ssh-Keygen -t rsa），设置主机免密登录（ssh-copy-id simple02）3.主机登陆simple02

第三章

Hbase

三部分

1.Shell命令: hdfs dfs-ls（hadoop fs，hadoop dfs）

（-help-appendTofile-cat-checksun-chgrp-chmod-chown-copyFromLocal-copyToLocal-count- count-cp-rmr-touchz-rmdir-movefromlocal）

2.Java的API：创建lib，复制jar包，buidPath

3.远程连接：RPC 远程过程调用协议，网络层协议通过TCP/UDP，跨运输层应用层，不需要了解底层，更容易

RPC采用客户服务器模式：1编写接口2编写服务器端3编写客户端(需要实际去看看)

第四章

MapReduce

三部分

1.MapReduce概念

什么是MapReduce：是一种思想（分而治之，迭代汇总），一种分布式计算模型（分而治之map（），迭代汇总reduce（）），可以解决离线海量数据计算问题，不能解决实时数据分析处理

数据类型：boolean，byte，int’float，long，double（writable实现后面加writable如 Vintwritable，Vlongwritable）

序列化机制：

序列化（结构化对象转字节流）

反序列化（字节流转结构化对象）

与JAVA序列化区别（Hadoop可复用对象，提高应用效率）

Hadoop序列化特点（紧凑，快速，可扩展，互操作，）

Hadoop序列化作用（分布式环境下进程间通信+永久存储，Hadoop节点间通信）

2.MapReduce架构

Shuff e

1shuffe（map输出为reduce输入）

2map端不写入磁盘写入内容，一定数量写入磁盘，过程中排序合并分区

3reduce端以HTTP协议输出partition复制到缓存，进行mergesort（归并排序），同key排序集中

3.Mapreduc接口类

输入类：FileInputFormate，textinputformate，combinefileinputformate， keyvaluetextinputformate， Nlineinputformate

输出类：textoutputformate，squencefileoutputformate，squencefileasoutputformate， mapfileoutputformat，mutipleoutputformat

第五章

Yarn

两部分

1.概述

MRv2(mapreducVersion2.0)(yarn)原理：Jobtracker分为两部分，资源管理和工作任务，具体有一个sourcemanager和一个nodemanager，sourcemanager接受客户端请求，产生MRAppMaster进程，MRAppMaster分配任务到其他节点并产生TaskMaster

Yarn组成五部分：sourcemanager，nodemanager，MRAppMaster，container，maptask，reducetask

2.执行过程

Yarn执行步骤三端

Resourcemanager端:1，client向resourcemanager提交任务2，resourcemanager创建container告知nodemanager启动MRAppmaster

Nodemanager端:3,启动MRAppmaster4,完成任务向sourcemanager汇报

MRAppMaster：5,与resourcemanager交互，获取资源6,跟nodemanager通信,启动Maptask或reducetask7，向resourcemanager汇报工作

考后总结：

环境变量配置细看端口50070 8088 ssh22号端口

代码细看

网友评论

本文标题：Hadoop大数据实践总结

本文链接：https://www.haomeiwen.com/subject/rgvehctx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

Hadoop大数据实践总结

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读