美文网首页大数据领域精选
【Hive 精选】Hive 架构详解

【Hive 精选】Hive 架构详解

作者: 熊本极客 | 来源:发表于2023-08-01 23:07 被阅读0次

2.Hive 架构

2.1 架构总览

  • UI 即 CLI/JDBC:用户可以通过该界面提交 SQL 语句
  • Driver:从 UI 接收 SQL 语句的组件,接着将 SQL 提交给解析器 Compiler,然后通过执行引擎 Execution Engine 把作业转化成 DAG。
  • Compiler:首先将 SQL 进行语法、语义分析,然后生成逻辑计划并进行优化,期间使用了 Metastore 存储的表和分区元数据。
  • Execution Engine:将收到的逻辑计划生成和优化物理计划。Execution Engine 可以根据系统的资源情况、数据分布和查询需求等因素,选择最合适的执行策略和操作顺序,例如选择合适的连接算法、选择合适的数据分区和并行度等。
  • Metastore:存储仓库中各种表和分区的所有结构信息的组件,包括列和列类型信息,用于读写数据的序列化和反序列化器,以及存储数据的相应HDFS文件。

说明:所谓的 Client 有 2 种分别是 HiveServer2 和 Hive CLI,它包含 CLI、Driver、Compiler 和 Execution Engine 模块的能力。

Metastore、HiveServer2 和 Hive CLI 之间有什么关系?
Hive CLI 不依赖 HiveServer2,但 2 者都依赖 Metastore。

HiveServer2 和 Hive CLI 有啥区别?

  • HiveServer2 是 Hive 的服务端组件,提供了远程连接和多用户并发查询的功能。HiveServer2 允许客户端使用不同的协议( JDBC、ODBC 和 Thrift)连接到 Hive,并通过这些协议发送 HiveQL 查询请求。HiveServer2 接收到查询请求后,会将其转发给 Hive 驱动器(Hive Driver)进行处理。Hive 驱动器负责编译和执行查询计划,并将结果返回给 HiveServer2,然后 HiveServer2 再将结果返回给客户端。
  • Hive CLI 是 Hive 提供的命令行界面,允许用户通过命令行输入 HiveQL(Hive Query Language)语句来执行查询。Hive CLI 是直接运行在客户端机器上的,它会解析用户输入的 HiveQL 语句,并将其转换为对应的 MapReduce 或 Tez 任务,然后将任务提交给 Hadoop 集群执行。
  • 高可用方面,Hive CLI 没有 HA 功能,而 HiveServer2 支持 HA,解决了应用端的并发和负载均衡等问题。

SQL 语句的提交流程:UI 调用 Driver 的执行接口,Driver 为查询创建一个会话句柄,并将查询发送给 Compiler 生成执行计划。Compiler 从 Metastore 中获取必要的元数据。这些元数据用于对查询树中的表达式进行类型检查,以及根据查询谓词来修剪分区。Compiler 生成的计划是一个阶段的有向无环图,每个阶段可以是一个 map/reduce 作业。Execution Engine 执行引擎将这些阶段提交给适当的组件,在每个任务(mapper/reducer)中,反序列化读取保存在 HDFS 表或中间结果的数据,接着把中间结果序列化到临时 HDFS 文件,如此类推。

2.2 SQL 语句的提交流程详解

image.png

相关文章

网友评论

    本文标题:【Hive 精选】Hive 架构详解

    本文链接:https://www.haomeiwen.com/subject/cqxypdtx.html