1.什么是Hive
-
Hive : 由Facebook 开源用于解决 <u>海量结构化日志</u> 的数据统计。
-
Hive是基于Hadoop的一个<u>数据仓库工具</u>,可以将 <u>结构化的数据文件映射为一张表</u> ,并提供 <u>类SQL</u> 查询功能
本质是:将HQL转为MapReduce程序
-
Hive处理的数据存储在Hdfs
-
Hive分析数据底层的实现 <u>默认是 MapReduce</u> (可以换成其他的)
-
Hive运行程序是在yarn上的
总结:可以吧Hive理解为一个客户端,方便你去调度Hadoop,所以它不是一个分布式的框架,而是一个客户端工具。
image
2.Hive的优缺点
2.1 优点
- 操作接口采用类SQL写法,提供快速开发能力
- 避免了写MapReduce,减少学习成本
- Hive执行的延迟比较高,因此Hive常用于数据分析,对实时性要求不高的场景
- Hive优势在于处理大数据,对于小数据处理没有优势
- Hive支持用户自定义函数,用户可根据自己的需求定义函数
2.2缺点
- Hive的HQL表达能力有限
- 迭代式算法无法表达
- 数据挖掘方面不擅长
- Hive的效率比较低
- Hive自动生成的MapReduce作业,通常情况下不够智能
- Hive调优比较困难,粒度较粗
网友评论