software:软件包
app:软件安装目录
data:存放测试数据
source:软件源码,如spark
1、supported platform---Linux
2、required software----Java、ssh
-安装JDK:下载、解压到app目录、调用sh文件【./】、把bin目录放到系统环境变量中【~/.bash_profile--其中一个,导出新增的JavaHome,导出添加后的path】
-机器参数配置:修改机器名hostname【etc/sysconfig/network】、设置ip和hostname的映射关系【/ect/hosts】
-ssh免密码登录:【ssh-keygen -t rsa--创建sshkey】、将公钥拷贝到.ssh目录下重命名为authorized_keys【公钥后面带上了用户名@服务器名---通过‘’ssh 服务器名‘’直接登录到该服务器下】(可以省略,但是重启hadoop进程时候需要手工输入密码才可以,而hadoop在实际环境上一般都是多节点的)
3、修改HDFS核心配置【hadoop-env.sh\core-site.xml\hdfs-site.xml】
-解压hadoop的软件包到App
-etc/hadoop/hadoop-env.sh-----添加 JAVA-HOME
-etc/hadoop/core-site.xml-----文件系统[hdfs]默认的文件名称和地址、hadoop的临时文件[为了防止被删除]
-etc/hadoop/hdfs-site.xml------文件系统的副本系数【hadoop中HDFS是以多副本方式存储的,默认有3个副本,但是现在只有一台机器】
4、格式化HDFS【只在第一次启动时执行】
5、启动HDFS sbin/start-dfs.sh【start NameNode deamon and DataNode deamon】
6、hadoop目录【bin----客户端相关脚本】【sbin-----服务端相关脚本】
7、操作hdfs----hadoop fs 命令
8、MapReduce【计算框架】【DAG计算,计算有依赖】
实现过程:input-spliting-mapping-shuffling-reducing-final result
通过Java具体实现MapReduce作业:继承Mapper类-继承Reducer方法-main方法【配置类、Job..】
9、YARN【资源调度框架】
MapReduce、Spark、Storm...都可以运行在YARN上面,接收YARN的调度
10、YARN架构
【【提交请求-启动/杀死作业-->】1 Resource Manager--N Node Manager【--->启动一个Application Master】】
11、YARN执行流程
-1、用户向YARN提交作用
-2、RM会为该作业分配第一个container(AM)
-3、RM会与对应的NM通信,要求NM在这个container上启动应用程序的AM
-4、AM首先向RM注册,然后AM将为各个任务申请资源,并监控运行情况
-5、AM采用轮询的方式通过RPC协议向RM申请和领取资源
-6、AM申请到资源以后,便和相应的NM通信,要求NM启动任务
-7、NM启动我们作业对应的task
12、修改YARN的配置【yarn-site.xml\mapred-site.xml】
13、启停YARN
网友评论