第十九次早课

作者: 苏木logwood | 来源:发表于2017-12-28 10:20 被阅读41次

第十九次早课
2021.1.26
康妈读经感恩日志
君子有预见性，有取舍201804271337
2021.2.21
第五次早课
第十五次早课
第九次早课
第十九次
第十九次

第十九次早课：

1、hadoop三大组件

NameNode、DataNode、Secondary NameNode

2、我们选择了哪种部署模式

伪分布式

3、hdfs的启动进程顺序

NN、DN、SNN

4、NN节点要不要格式化后再启动？

需要

5、hadoop官网地址？

http://hadoop.apache.org/

6、想想官网的文档，配置文件在哪？

http://hadoop.apache.org/docs/r2.8.3/hadoop-project-dist/hadoop-common/core-default.xml

7、hadoop解压后，bin 、sbin分别做什么？

bin：操作命令
sbin：启动命令

8、NN是存储什么？

NameNode存储：文件系统的命名空间
    a.文件名称
    b.文件目录结构
    c.文件的属性【权限，创建时间，副本数】
    d.文件对应哪些数据块 -->数据块对应哪些DataNode节点
        【blockmap当然NameNode节点不会持久的存储这种映3射关系，是通过集群在启动和运行时，DataNode定期发送blockReport给NameNode，以此NameNode在内存中来动态维护的这种映射关系】

9、NN有两种文件，是什么？

fsimage：文件元信息
editlog：命名空间

10、DN是存储什么？

DN存储的是：数据块和数据块校验和

11、SNN是干什么的？默认多久一次？

SNN作用：定期合并fsimage+editlog文件为新的fsimage推送给NameNode。俗称检查点动作checkpoint
默认是3600s

12、hdfs、yarn都属于什么架构设计？

主从架构

13、块的放置策略，假如本节点是DN节点，那么第一个副本放哪？为什么？

放在本节点上，节约读取时间

14、hdfs读流程是output还是input？

input

15、hdfs的文件系统命令有哪两组？

hadoop fs
hdfs dfs

16、hdfs读写流程？

HDFS读流程：
1.Client通过FileSy.open(filePath)方法，去与NameNode进行RPC通信，返回该文件的部分或全部的block列表（也包含该列表个block的分布与DataNode地址的列表），也就是返回FSDataInputStream对象。
2.Client调用FSDataInputStream对象的read()方法。
    a.去与第一块的最近的DataNode进行read，读取完后，会check，假如successful，会关闭与当前DataNode通信；（假如check fail，会记录失败的块+DataNode信息，下次就不会读取，那么会去该块的第二个DataNode地址读取）
    b.然后去第二个块的最近的DataNode上的进行读取，check后，会关闭与此DataNode的通信。
    c.假如block列表读取完了，文件还未结束，那么FileSystem会从NameNode获取下一批的block的列表。（当然读操作对于Client端是透明的，感觉就是连续的数据流）
3.Client调用FSDataInputStream.close()方法，关闭输入流。
HDFS写流程：
    1.Client调用FileSystem.create(filePath)方法，去与NameNode进行RPC通信，check该路径的文件是否存在以及有没有权限创建该文件，假如ok，就创建一个新文件，但是并不关联任何block，返回一个FSDataOutputStream对象；（假如not ok，就返回错误信息，所以写代码要try-catch）
    2.Client调用FSDataOutputStream对象的write()方法，会将第一块写入第一个DataNode，第一个DataNode写完传给第二节点，第二个写完传输给第二个节点，第二个写完传给第三节点，当第三个节点写完返回一个ack packet给第二个节点，第二个返回一个ack packet给第一个节点，第一个节点返回一个ack packet给FSDataOutputStream对象，意思标识第一个块写完，副本数为3，然后剩余的块依次这样写；（当然写操作对于Client端也是透明的）
    3.当向文件写入数据完成后，Client调用FSDataOutputStream.close()方法，关闭输出流，flush缓存区的数据包。
    4.再调用FileSystem.complete()方法，告诉NameNode节点写入成功。

17、yarn启动哪两个进程？

NM和RM

18、那么task运行在rm节点上吗？

运行在nm的容器中

19、什么叫容器？简述

是Yarn中的资源抽象，它封装了某个节点上的多维度资源，如内存、CPU、磁盘、网络等，当AM向RM申请资源时，RM为AM返回的资源便是用Container表示的。YARN会为每个任务分配一个Container且该任务只能使用该Container中描述的资源。

20、想想memory调优的参数

yarn.nodemanager.resource.memory-mb
表示该节点上YARN可使用的物理内存总量，默认是8192（MB），注意，如果你的节点内存资源不够8GB，则需要调减小这个值，而YARN不会智能的探测节点的物理内存总量。
yarn.nodemanager.vmem-pmem-ratio
任务每使用1MB物理内存，最多可使用虚拟内存量，默认是2.1。
yarn.nodemanager.pmem-check-enabled
是否启动一个线程检查每个任务正使用的物理内存量，如果任务超出分配值，则直接将其杀掉，默认是true。
yarn.nodemanager.vmem-check-enabled
是否启动一个线程检查每个任务正使用的虚拟内存量，如果任务超出分配值，则直接将其杀掉，默认是true。
yarn.scheduler.minimum-allocation-mb
单个任务课申请的最少物理内存量，默认是1024（MB），如果一个任务申请的物理内存量少于该值，则该对应的值改为这个数。
yarn.schduler.maximum-allocation-mb
单个任务可申请的最多物理内存量，默认是8192（MB）。

21、yarn中使用是core还是vcore

vcore

22、一般默认一个core划分几个vcore？

一般默认一个core划分为2个vcore

23、yarn的架构设计简述

1.用户向YARN中提交应用程序，其中包括ApplicationMaster程序、启动ApplicationMaster的命令、用户程序等。
2.ResourceManager为该应用程序分配第一个Container，并与对应的Node-Manager通信，要求它在这个Container中启动应用程序的ApplicationMaster。
3.ApplicationMaster首先向ResourceManager注册，这样用户可以直接通过ResourceManager查看应用程序的运行状态，然后它将为各个任务申请资源，并监控它的运行状态，直到运行结束，即重复步骤4~7.
4.ApplicationMaster采用轮询的方式通过RPC协议向ResourceManager申请和领取资源。
5.一旦ApplicationMaster申请到资源后，便与对应的NodeManager通信，要求它启动任务。
6.NodeManager为任务设置好运行环境（包括环境变量、JAR包、二进制程序等）后，将任务启动命令写到一个脚本中，并通过运行脚本启动任务。
7.各个任务通过某个RPC协议向ApplicationMaster汇报自己的状态和进度，以让ApplicationMaster随时掌握各个任务的运行状态，从而可以在任务失败时重新启动任务。在应用程序运行过程中，用户可随时通过RPC向ApplicationMaster查询应用程序的当前运行状态。
8.应用程序运行完成后，ApplicationMaster向ResourceManager注销并关闭自己。

24、mapreduce的 shuffle，简述对这个的理解

shuffle的意思是洗牌，是在Map和Reduce中间进行的。

网友评论

本文标题：第十九次早课

本文链接：https://www.haomeiwen.com/subject/raemgxtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

第十九次早课

第十九次早课：

1、hadoop三大组件

2、我们选择了哪种部署模式

3、hdfs的启动进程顺序

4、NN节点要不要格式化后再启动？

5、hadoop官网地址？

6、想想官网的文档，配置文件在哪？

7、hadoop解压后，bin 、sbin分别做什么？

8、NN是存储什么？

9、NN有两种文件，是什么？

10、DN是存储什么？

11、SNN是干什么的？默认多久一次？

12、hdfs、yarn都属于什么架构设计？

13、块的放置策略，假如本节点是DN节点，那么第一个副本放哪？为什么？

14、hdfs读流程是output还是input？

15、hdfs的文件系统命令有哪两组？

16、hdfs读写流程？

17、yarn启动哪两个进程？

18、那么task运行在rm节点上吗？

19、什么叫容器？简述

20、想想memory调优的参数

21、yarn中使用是core还是vcore

22、一般默认一个core划分几个vcore？

23、yarn的架构设计 简述

24、mapreduce的 shuffle，简述对这个的理解

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

23、yarn的架构设计简述