美文网首页
Hadoop大数据实践总结

Hadoop大数据实践总结

作者: 今天晴天_8c18 | 来源:发表于2019-07-05 16:36 被阅读0次

    Xzg大数据实践课本总结V3.0

    第一章

    概述

    三部分

    1.什么是Hadoop:阿帕奇基金会开源的一个具有可靠性和扩展性的计算存储系统

    2.Hadoop四部分:

    Hadoop-common(支撑其他模块)

    hdfs(支持高吞吐量访问)  

    hadoop-yarn(资源管理任务调度框架)

    hadoop-mapreduce(并行处理大数据yarn基本系统)

    3.阿帕奇与Hadoop相关项目:

    HBASE(一个分布式的面向列的nosql开源数据库,主要解决非关系型数据存储问题)

    hive(Hadoop上的数据仓库基础架构,将结构化的数据映射成表)

    mahout(可扩展的机器学习算法实现包括聚类,分类,推荐过滤,频繁子项挖掘)

    pig(大规模数据分析平台)

    spart(快速通用的集群计算系统)

    zookeeper(能够高校开发和维护分布式的开放源码的应用协调服务)

    第二章

    Hadoop环境搭建

    三部分

    1.安装vmware:下一步...

    2.安装linux:

    Linux四部分(1.Linux内核2.GNU组件3.图形化界面4.软件)

    三个网络(桥接 NAT仅主机)

    三个图形化界面(Xterm Konsole  Gnome terminal)

    两个操作实例1设置ip 2设置主机名映射

    3.安装hadoop:

    hadoop(安装JAVA)1.修改环境变量/etc/profile(hadoop-env.sh)四个文件(core-site.html,hdfs-site.html,mapred-site.xml,yarn-site.xml)2.激活配置格式化节点开启服务jps

    ssh1.进入ssh 2.创建密钥对(ssh-Keygen -t rsa),设置主机免密登录(ssh-copy-id simple02)3.主机登陆simple02

    第三章

    Hbase

    三部分

    1.Shell命令: hdfs dfs-ls(hadoop fs,hadoop dfs)

    (-help-appendTofile-cat-checksun-chgrp-chmod-chown-copyFromLocal-copyToLocal-count- count-cp-rmr-touchz-rmdir-movefromlocal)

    2.Java的API:创建lib,复制jar包,buidPath

    3.远程连接:RPC 远程过程调用协议,网络层协议通过TCP/UDP,跨运输层应用层,不需要了解底层,更容易

    RPC采用客户服务器模式:1编写接口2编写服务器端3编写客户端(需要实际去看看)

    第四章

    MapReduce

    三部分

    1.MapReduce概念

    什么是MapReduce:是一种思想(分而治之,迭代汇总),一种分布式计算模型(分而 治 之map(),迭代汇总reduce()),可以解决离线海量数据计算问题,不能解决实时 数据分析处理

    数据类型:boolean,byte,int’float,long,double(writable实现后面加writable如 Vintwritable,Vlongwritable)

    序列化机制:

    序列化(结构化对象转字节流)

    反序列化(字节流转结构化对象)

    与JAVA序列化区别(Hadoop可复用对象,提高应用效率)

    Hadoop序列化特点(紧凑,快速,可扩展,互操作,)

    Hadoop序列化作用(分布式环境下进程间通信+永久存储,Hadoop节点间通信)

    2.MapReduce架构

    Shuff e

    1shuffe(map输出为reduce输入)

    2map端不写入磁盘写入内容,一定数量写入磁盘,过程中排序合并分区

    3reduce端以HTTP协议输出partition复制到缓存,进行mergesort(归并排序),同key排序集中

    3.Mapreduc接口类

    输入类:FileInputFormate,textinputformate,combinefileinputformate, keyvaluetextinputformate, Nlineinputformate

    输出类:textoutputformate,squencefileoutputformate,squencefileasoutputformate, mapfileoutputformat,mutipleoutputformat

    第五章

    Yarn

    两部分

    1.概述

    MRv2(mapreducVersion2.0)(yarn)原理:Jobtracker分为两部分,资源管理和工作任务,具体有一个sourcemanager和一个nodemanager,sourcemanager接受客户端请求,产生MRAppMaster进程,MRAppMaster分配任务到其他节点并产生TaskMaster

    Yarn组成五部分:sourcemanager,nodemanager,MRAppMaster,container,maptask,reducetask

    2.执行过程

    Yarn执行步骤三端

    Resourcemanager端:1,client向resourcemanager提交任务2,resourcemanager创建container告知nodemanager启动MRAppmaster

    Nodemanager端:3,启动MRAppmaster4,完成任务向sourcemanager汇报

    MRAppMaster:5,与resourcemanager交互,获取资源6,跟nodemanager通信,启动Maptask或reducetask7,向resourcemanager汇报工作

    考后总结:

    环境变量配置细看端口50070 8088 ssh22号端口

    代码细看

    相关文章

      网友评论

          本文标题:Hadoop大数据实践总结

          本文链接:https://www.haomeiwen.com/subject/rgvehctx.html