美文网首页
大数据系列面试一

大数据系列面试一

作者: 苏坡闷 | 来源:发表于2019-03-20 20:52 被阅读0次

    1.简要描述如何安装配置apache的一个开源Hadoop,只描述即可,无需列出具体步骤,列出具体步骤更好

    ①根据Hadoop版本安装匹配的JDK版本,配置JAVA_HOME;
    ②解压安装Hadoop,配置HADOOP_HOME,将hadoop安装目录下bin/sbin加入到PATH中,方便以后使用;
    ③配置hadoop的配置文件,core-site.xml,hdfs-site.xml,mapred-site.xml,yarn-site.xml;
    ④如果为完全分布式的集群,则需要配置所有机器的hosts映射信息,配置rm所在机器到其他机器的ssh免密登陆;
    ⑤在rm所在主机编辑$HADOOP_HOME/etc/hadoop/slaves文件,配置集群中的所有的主机名
    ⑥分发安装的hadoop到其他节点
    关键字:JDK、hadoop、配置文件、ssh、slaves、分发

    1. Hadoop中需要哪些配置文件,其作用是什么?

    ①xx-env.sh 配置hadoop中各个组件运行的环境信息。
    ②core-site.xml 用户自定义核心组件,例如namenode的rpc地址
    ③hdfs-site.xml 用户自定义和hdfs相关参数
    ④mapred-site.xml 用户自定义和MapReduce相关参数
    ⑤yarn-site.xml 用户自定义和yarn相关参数

    3.请列出正常工作的Hadoop集群中Hadoop都分别需要启动哪些进程,它们的作用分别是什么?

    ①Namenode:负责hdfs元数据的管理以及处理客户端的请求
    ②Datanode:一块为单位存储HDFS文件
    ③SecondaryNamenode:辅助Namenode合并fsimage与edits文件,但在HA集群中可以省略此进程
    ④ResourceManager:负责整个集群中所有系统资源的管理(cpu,内存,io,硬盘)
    ⑤NodeManager:负责单个节点中所有计算资源的管理,领取RM中的Task任务,分配container运行Task。

    4.简述Hadoop的几个默认端口及其含义

    ①50070:hdfs的http服务的端口
    ②9000:hdfs的内部通讯端口
    ③8088:yarn的http服务端口
    ④19888:yarn日志的http服务端口
    ⑤60010:HBase的http服务端口
    ⑥2181:zookeeper对客户端提供服务的端口
    ⑦8080:Spark的Web监控端口
    ⑧4040:Spark的Job监控端口

    相关文章

      网友评论

          本文标题:大数据系列面试一

          本文链接:https://www.haomeiwen.com/subject/hhwtvqtx.html