1. Hadoop1.0与Hadoop2.0有哪些区别?
- 与hadoop1.0相比hadoop2.0新增加了一个资源管理系统YARN(Yet Another Resource Negotiator),YARN的引入为集群在利用率,资源统一管理和数据共享方面带来巨大好处。
- hadoop1.0只能够执行MapReduce应用程序,hadoop2.0不仅可以执行MapReduce应用还可以执行其他的应用程序 。
2.hive表的元数据为什么放到RDB中而不放到HDFS中?
- HDFS适用于大规模数据存储,而元数据的数据量不是很大。
- 如果把hive表的元数据存储到RDB上,那么使用时查询的速度就比较快。
3. Secondary NameNode是什么?有什么用?
- Secondary NameNode 可以理解为NameNode的一个助手,它不是NameNode的备份。
作用:
首先看一下NameNode对元数据的操作过程。
NameNode管理者集群所有的元数据,包括目录,文件,分块信息,日志信息等,这些元数据都被保存在镜像文件(fsimage)和编辑日志文件(editlogs)中。在NameNode工作时这些元数据会被存储到内存中(这样速度快)。每次向HDFS写文件时NameNode都会向editlogs写入日志。fsimage与editlogs合并后才会产生新的镜像文件fsimage,而且只有在Namenode重启时才会合并。这就会带来一些问题:如何存储editlogs文件?重启时editlogs文件太多就会很慢。如果NameNode宕机大量数据就会丢失。而Secondary NameNode就是为了解决上述问题。- 第一个作用就是备份fsimage。第二个就是定期合并editlogs和fsimage为新的fsimage。这两个过程同时进行。
4. 什么是小文件问题?如何避免
Small file issue
小文件问题就是HDFS中存放了太多小文件
避免的方法:
- 把小文件合并成大文件
- 把小文件存放到HBase中
网友评论