2.Hive 架构

2.1 架构总览

UI 即 CLI/JDBC：用户可以通过该界面提交 SQL 语句
Driver：从 UI 接收 SQL 语句的组件，接着将 SQL 提交给解析器 Compiler，然后通过执行引擎 Execution Engine 把作业转化成 DAG。
Compiler：首先将 SQL 进行语法、语义分析，然后生成逻辑计划并进行优化，期间使用了 Metastore 存储的表和分区元数据。
Execution Engine：将收到的逻辑计划生成和优化物理计划。Execution Engine 可以根据系统的资源情况、数据分布和查询需求等因素，选择最合适的执行策略和操作顺序，例如选择合适的连接算法、选择合适的数据分区和并行度等。
Metastore：存储仓库中各种表和分区的所有结构信息的组件，包括列和列类型信息，用于读写数据的序列化和反序列化器，以及存储数据的相应HDFS文件。

说明：所谓的 Client 有 2 种分别是 HiveServer2 和 Hive CLI，它包含 CLI、Driver、Compiler 和 Execution Engine 模块的能力。

Metastore、HiveServer2 和 Hive CLI 之间有什么关系？
Hive CLI 不依赖 HiveServer2，但 2 者都依赖 Metastore。

HiveServer2 和 Hive CLI 有啥区别？

HiveServer2 是 Hive 的服务端组件，提供了远程连接和多用户并发查询的功能。HiveServer2 允许客户端使用不同的协议（ JDBC、ODBC 和 Thrift）连接到 Hive，并通过这些协议发送 HiveQL 查询请求。HiveServer2 接收到查询请求后，会将其转发给 Hive 驱动器（Hive Driver）进行处理。Hive 驱动器负责编译和执行查询计划，并将结果返回给 HiveServer2，然后 HiveServer2 再将结果返回给客户端。
Hive CLI 是 Hive 提供的命令行界面，允许用户通过命令行输入 HiveQL（Hive Query Language）语句来执行查询。Hive CLI 是直接运行在客户端机器上的，它会解析用户输入的 HiveQL 语句，并将其转换为对应的 MapReduce 或 Tez 任务，然后将任务提交给 Hadoop 集群执行。
高可用方面，Hive CLI 没有 HA 功能，而 HiveServer2 支持 HA，解决了应用端的并发和负载均衡等问题。

SQL 语句的提交流程：UI 调用 Driver 的执行接口，Driver 为查询创建一个会话句柄，并将查询发送给 Compiler 生成执行计划。Compiler 从 Metastore 中获取必要的元数据。这些元数据用于对查询树中的表达式进行类型检查，以及根据查询谓词来修剪分区。Compiler 生成的计划是一个阶段的有向无环图，每个阶段可以是一个 map/reduce 作业。Execution Engine 执行引擎将这些阶段提交给适当的组件，在每个任务（mapper/reducer）中，反序列化读取保存在 HDFS 表或中间结果的数据，接着把中间结果序列化到临时 HDFS 文件，如此类推。