2018-06-13-hadoop安装

作者: 迪奥炸 | 来源:发表于2018-06-14 09:28 被阅读0次

2018-06-13-hadoop安装
ubuntu ppa PHP
从零开始在 Ubuntu 下部署 Django + uwsgi
step one
centos安装lnmp,redis
liunx实操(centOS 6.8)
CentOS 7 下RabbitMQ 3.7 安装与配置
在VirtualBox上使用Bosh部署Cloud Foundr
ubuntu安装nginx
Linux下安装pip3

software:软件包
app:软件安装目录
data：存放测试数据
source：软件源码，如spark

1、supported platform---Linux
2、required software----Java、ssh
-安装JDK：下载、解压到app目录、调用sh文件【./】、把bin目录放到系统环境变量中【~/.bash_profile--其中一个，导出新增的JavaHome，导出添加后的path】
-机器参数配置：修改机器名hostname【etc/sysconfig/network】、设置ip和hostname的映射关系【/ect/hosts】
-ssh免密码登录：【ssh-keygen -t rsa--创建sshkey】、将公钥拷贝到.ssh目录下重命名为authorized_keys【公钥后面带上了用户名@服务器名---通过‘’ssh 服务器名‘’直接登录到该服务器下】（可以省略，但是重启hadoop进程时候需要手工输入密码才可以，而hadoop在实际环境上一般都是多节点的）

3、修改HDFS核心配置【hadoop-env.sh\core-site.xml\hdfs-site.xml】
-解压hadoop的软件包到App
-etc/hadoop/hadoop-env.sh-----添加 JAVA-HOME
-etc/hadoop/core-site.xml-----文件系统[hdfs]默认的文件名称和地址、hadoop的临时文件[为了防止被删除]
-etc/hadoop/hdfs-site.xml------文件系统的副本系数【hadoop中HDFS是以多副本方式存储的，默认有3个副本，但是现在只有一台机器】
4、格式化HDFS【只在第一次启动时执行】
5、启动HDFS sbin/start-dfs.sh【start NameNode deamon and DataNode deamon】
6、hadoop目录【bin----客户端相关脚本】【sbin-----服务端相关脚本】
7、操作hdfs----hadoop fs 命令

8、MapReduce【计算框架】【DAG计算，计算有依赖】
实现过程：input-spliting-mapping-shuffling-reducing-final result
通过Java具体实现MapReduce作业：继承Mapper类-继承Reducer方法-main方法【配置类、Job..】

9、YARN【资源调度框架】
MapReduce、Spark、Storm...都可以运行在YARN上面，接收YARN的调度
10、YARN架构
【【提交请求-启动/杀死作业-->】1 Resource Manager--N Node Manager【--->启动一个Application Master】】
11、YARN执行流程
-1、用户向YARN提交作用
-2、RM会为该作业分配第一个container（AM）
-3、RM会与对应的NM通信，要求NM在这个container上启动应用程序的AM
-4、AM首先向RM注册，然后AM将为各个任务申请资源，并监控运行情况
-5、AM采用轮询的方式通过RPC协议向RM申请和领取资源
-6、AM申请到资源以后，便和相应的NM通信，要求NM启动任务
-7、NM启动我们作业对应的task
12、修改YARN的配置【yarn-site.xml\mapred-site.xml】
13、启停YARN