大数据系列面试一

作者: 苏坡闷 | 来源:发表于2019-03-20 20:52 被阅读0次

大数据系列面试一
Java 面试八股文之数据库篇（三）
Java 面试八股文之数据库篇（二）
java面试&数据存储系列
数据结构(五)图的简单操作
数据结构(二)链表操作
数据结构(四)Huffman树实现
数据结构(三)简单树操作
MySQL 面试系列：如何正确的使用 MySQL log 系统
马上就要找工作了！师哥给了我一百一十道Python面试题！祝我好

1.简要描述如何安装配置apache的一个开源Hadoop，只描述即可，无需列出具体步骤，列出具体步骤更好

①根据Hadoop版本安装匹配的JDK版本，配置JAVA_HOME；
②解压安装Hadoop，配置HADOOP_HOME,将hadoop安装目录下bin/sbin加入到PATH中，方便以后使用；
③配置hadoop的配置文件，core-site.xml,hdfs-site.xml,mapred-site.xml,yarn-site.xml；
④如果为完全分布式的集群，则需要配置所有机器的hosts映射信息，配置rm所在机器到其他机器的ssh免密登陆；
⑤在rm所在主机编辑$HADOOP_HOME/etc/hadoop/slaves文件，配置集群中的所有的主机名
⑥分发安装的hadoop到其他节点
关键字：JDK、hadoop、配置文件、ssh、slaves、分发

Hadoop中需要哪些配置文件，其作用是什么？

①xx-env.sh 配置hadoop中各个组件运行的环境信息。
②core-site.xml 用户自定义核心组件，例如namenode的rpc地址
③hdfs-site.xml 用户自定义和hdfs相关参数
④mapred-site.xml 用户自定义和MapReduce相关参数
⑤yarn-site.xml 用户自定义和yarn相关参数

3.请列出正常工作的Hadoop集群中Hadoop都分别需要启动哪些进程，它们的作用分别是什么?

①Namenode：负责hdfs元数据的管理以及处理客户端的请求
②Datanode：一块为单位存储HDFS文件
③SecondaryNamenode：辅助Namenode合并fsimage与edits文件，但在HA集群中可以省略此进程
④ResourceManager：负责整个集群中所有系统资源的管理（cpu，内存，io，硬盘）
⑤NodeManager：负责单个节点中所有计算资源的管理，领取RM中的Task任务，分配container运行Task。

4.简述Hadoop的几个默认端口及其含义

①50070：hdfs的http服务的端口
②9000：hdfs的内部通讯端口
③8088：yarn的http服务端口
④19888：yarn日志的http服务端口
⑤60010：HBase的http服务端口
⑥2181：zookeeper对客户端提供服务的端口
⑦8080：Spark的Web监控端口
⑧4040：Spark的Job监控端口