Hadoop面试题(0919)

作者: hipeer | 来源:发表于2018-09-19 16:08 被阅读0次

Hadoop面试题(0919)
面试题汇总：Hadoop
Hadoop 面试题
Hadoop一天速成
程序员们的福利：学习视频、技术文档、面试题三大主题（java、架
0919
0919
0919
0919
0919

1. Hadoop1.0与Hadoop2.0有哪些区别？

与hadoop1.0相比hadoop2.0新增加了一个资源管理系统YARN(Yet Another Resource Negotiator),YARN的引入为集群在利用率，资源统一管理和数据共享方面带来巨大好处。

hadoop1.0只能够执行MapReduce应用程序，hadoop2.0不仅可以执行MapReduce应用还可以执行其他的应用程序。

2.hive表的元数据为什么放到RDB中而不放到HDFS中？

HDFS适用于大规模数据存储，而元数据的数据量不是很大。

如果把hive表的元数据存储到RDB上，那么使用时查询的速度就比较快。

3. Secondary NameNode是什么？有什么用？

Secondary NameNode 可以理解为NameNode的一个助手，它不是NameNode的备份。
作用：
首先看一下NameNode对元数据的操作过程。
NameNode管理者集群所有的元数据，包括目录，文件，分块信息，日志信息等，这些元数据都被保存在镜像文件（fsimage）和编辑日志文件（editlogs）中。在NameNode工作时这些元数据会被存储到内存中（这样速度快）。每次向HDFS写文件时NameNode都会向editlogs写入日志。fsimage与editlogs合并后才会产生新的镜像文件fsimage，而且只有在Namenode重启时才会合并。这就会带来一些问题：如何存储editlogs文件？重启时editlogs文件太多就会很慢。如果NameNode宕机大量数据就会丢失。而Secondary NameNode就是为了解决上述问题。

第一个作用就是备份fsimage。第二个就是定期合并editlogs和fsimage为新的fsimage。这两个过程同时进行。