Hive有哪些特点？

作者: 数据僧 | 来源:发表于2018-12-15 18:01 被阅读5次

Hive是为了解决什么问题，Hive产生的背景，我们以这个为引子，展开回答。

1，MapReduce编程的不变性，如果要处理一些数据处理的任务，会有一定的门槛，并且操作起来不方便。
2，Hdfs上的文件缺少Schema。例如：缺少字段名，数据类型等，不方面数据进行有效管理。
3，用于解决海量结构化数据的统计问题
4，如果使用MapReduce等计算框架，学习成本比较高
5，在项目周期比较短的情况下，如果使用mapReduce或者其它的开发框架进行开发，无法满足项目对时间的要求。

我们从具体应用场景下看看Hive处于hadoop生态系统的什么位置：

如图：Hive以Hdfs为基本的文件存储，以MapReduce为执行引擎。所以Hive天然就具备了Hdfs，MapReduce的特性。

hive的位置

我们和传统数据库进行对比看看Hive有哪些优势和不足，当然这种不足是特定场景下的，也是Hive不擅长的领域。

hive的编写语法和传统的sql类似，核心的是hive有一套不同与sql的语法规则，最终被解释为mapReduce任务。hive只适合在海量数据下进行批量数据统计分析。

hive和RDBMS对比

我们在来看看hive和mapReduce之间的关系，如图：

hive和mapReduce的关系

在来看看hive的内部结构示意图

hive的内部结构示意图

Driver组件：

SQL Parser:编译器，将HQL转换成抽象语法树。
Query Optimizer：查询优化器
Physical Plan，SerDes，Udfs：执行器
解释器、编译器、优化器完成 HQL 查询语句从词法分析、语法分析、编译、优化以及查询计划的生成。生成的查询计划存储在HDFS 中，并在随后有 MapReduce 调用执行。
Metastore组件：Hive将元数据存储在数据库中。Hive 中的元数据包括表的名字，表的列和分区及其属性，表的属性（是否为外部表等），表的数据所在目录等

Hive处理命令的流程示意图

SQL Parser将SQL语句转换成抽象语法树--->生成逻辑执行计划---->查询优化----> 物理执行计划（SerDes序列化与反序列化，UDFs，执行引擎）

上面主要是从整体上介绍hive，已经hive相关的组件，最后总结下hive有哪些特点：

1，hive延迟高，适合高吞吐量，批量，海量数据处理。
2，语法和SQL相似，学习成本低，避免去写复杂的MapReduce，缩短开发周期。
3，Hive支持自由的扩展集群的规模，一般不需要重启服务。
4，Hive支持自定义函数，用户可以根据自己的需求去定义函数。
5，良好的容错性，节点出现问题，SQL仍然可以成功执行。
。。
整体上来说是继承了HDFS和MapReduce的特点。

如果您觉得我用心了，觉得您有所收获，麻烦关注下我吧，您的关注就是我的动力，因为有你，我就不是一个人在前行。

数据僧

欢迎来找数据僧一起探讨大数据相关的问题。评论区留言，我们一起讨论。

网友评论

本文标题：Hive有哪些特点？

本文链接：https://www.haomeiwen.com/subject/uuiahqtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

Hive有哪些特点？

Hive是为了解决什么问题，Hive产生的背景，我们以这个为引子，展开回答。

Driver组件：

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

大数据，机器学习，人工智能

大数据

玩转大数据

程序员