Hive体系架构

作者: 小小少年Boy | 来源:发表于2018-08-02 17:00 被阅读48次

    参考:
    Hive: 基于 Hadoop 的数据仓库工具
    hive体系结构和执行流程

    1、Hive产生背景

    • MapReduce编程的不便性
    • HDFS上的文件缺少Schema(表名,名称,ID等,为数据库对象的集合)

    2、Hive是什么

    Hive的使用场景是什么?

    基于Hadoop做一些数据清洗啊(ETL)、报表啊、数据分析
    可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。
    Hive是SQL解析引擎,它将SQL语句转译成M/R Job然后在Hadoop执行。

    • 由Facebook开源,最初用于解决海量结构化的日志数据统计问题
    • 构建在Hadoop之上的数据仓库
    • Hive定义了一种类SQL查询语言:HQL(类似SQL但不完全相同)
    • 通常用于进行离线数据处理(早期采用MapReduce)
    • 底层支持多种不同的执行引擎(现在可以直接把Hive跑在Spark上面)

    Hive底层的执行引擎有:MapReduce、Tez、Spark

    3、Hive 特点

    • Hive 最大的特点是 Hive 通过类 SQL 来分析大数据,而避免了写 MapReduce 程序来分析数据,这样使得分析数据更容易
    • Hive 是将数据映射成数据库和一张张的表,库和表的元数据信息一般存在关系型数据库上(比如 MySQL)
    • Hive 本身并不提供数据的存储功能,数据一般都是存储在 HDFS 上的(对数据完整性、格式要求并不严格)
    • Hive 很容易扩展自己的存储能力和计算能力,这个是继承自 hadoop 的(适用于大规模的并行计算)
    • Hive 是专为 OLAP(在线分析处理) 设计,不支持事务

    4、Hive体系架构

    Hive是C/S模式

    客户端: JDBC/ODBC Thrift Client 通过服务访问Hive
    Client端有JDBC/ODBC和Thrift Client,可远程访问Hive
    可以通过shell脚本的方式访问,或者通过Thrift协议,按照平时编写JDBC的方式完成对Hive的数据操作

    Server:CLI、Thrift Server、HWI(Hive web Interface)、Driver、Metastore

    • 其中CLI、Thrift Server、HWI是暴露给Client访问的独立部署的Hive服务
    • Driver、Metastore是Hive内部组件,Metastore还可以供第三方SQL on Hadoop框架使用
    • beeine(Hive 0.11引入),作为Hive JDBC Client访问HiveServer2,解决了CLI并发访问问题

    Driver:
    输入了sql字符串,对sql字符串进行解析,转化程抽象语法树,再转化成逻辑计划,然后使用优化工具对逻辑计划进行优化,最终生成物理计划(序列化反序列化,UDF函数),交给Execution执行引擎,提交到MapReduce上执行(输入和输出可以是本地的也可以是HDFS/Hbase)

    Metastore:
    Metastore进行元数据管理:Derby(内置 )、Mysql
    Derby:Derby只接受一个Hive的会话访问
    Mysql:Hive跑在Hadoop之上的,Mysql进行主备(定时同步操作)

    Hive体系架构

    a: Parsed Logical Plan 执行逻辑计划
    b: Analyzed Logical Plan 分析逻辑计划
    c: Optimized Logical Plan 优化逻辑计划
    d: Physical Plan 得到物理计划,进行执行

    Hive 架构

    由上图可知,hadoop 和 mapreduce 是 hive 架构的根基。

    MetaStore:存储和管理Hive的元数据,使用关系数据库来保存元数据信息。
    解释器和编译器:将SQL语句生成语法树,然后再生成DAG形式的Job链,成为逻辑计划

    优化器:只提供了基于规则的优化

    • 列过滤:去除查询中不需要的列
    • 行过滤:Where条件判断等在TableScan阶段就进行过滤,利用Partition信息,只读取符合条件的Partition
    • 谓词下推:减少后面的数据量
    • Join方式
      。 Map端join: 调整Join顺序,确保以大表作为驱动表,小表载入所有mapper内存中
      。 shuffle join:按照hash函数,将两张表的数据发送给join
      。对于数据分布不均衡的表Group by时,为避免数据集中到少数的reducer上,分成两个map-reduce阶段。第一个阶段先用Distinct列进行shuffle,然后在reduce端部分聚合,减小数据规模,第二个map-reduce阶段再按group-by列聚合。
      。 sort merge join:排序,按照顺序切割数据,相同的范围发送给相同的节点(运行前在后台创建立两张排序表,或者建表的时候指定)
      。 在map端用hash进行部分聚合,减小reduce端数据处理规模。

    执行器:执行器将DAG转换为MR任务。执行器会顺序执行其中所有的Job,如果Job不存在依赖关系,采用并发的方式进行执行,

    5、Hive sql的执行流程

    Hive sql的执行流程

    以下为执行说明:
    1.执行查询:hive界面如命令行或Web UI将查询发送到Driver(任何数据库驱动程序如JDBC、ODBC,等等)来执行。

    2.获得计划:Driver根据查询编译器解析query语句,验证query语句的语法,查询计划或者查询条件。

    3.获取元数据:编译器将元数据请求发送给Metastore(任何数据库)。

    4.接受元数据:Metastore将元数据作为响应发送给编译器。

    5.发送:编译器检查要求和重新发送Driver的计划。到这里,查询的解析和编译完成。

    6.执行计划:Driver将执行计划发送到执行引擎。

    7.执行Job:hadoop内部执行的是mapreduce。在执行引擎发送任务的同时,对hive的元数据进行相应操作。

    8.得到执行结果:执行引擎接收数据节点(data node)的结果。

    9.返回结果:执行引擎发送这些合成值到Driver。

    10.返回最终结果:Driver将结果发送到hive接口。

    6、数组组织格式

    image.png
    image.png
    • Table:每个表存储在HDFS上的一个目录下
    • Partition(可选):每个Partition存储再Table的子目录下
    • Bucket(可选):某个Partition根据某个列的hash值散列到不同的Bucket中,每个Bucket是一个文件

    用户可以指定Partition方式和Bucket方式,使得在执行过程中可以不用扫描某些分区。看上去Hive是先指定Partition方式,再在相同的Partition内部调用hash函数;

    7、Hive优化策略

    1. 去除查询中不需要的column---列过滤

    2. Where条件判断等在扫描表阶段就进行过滤---谓词下压

    3. 利用Partition信息,只读取符合条件的Partition

    4. Map端join,调整Join顺序,以大表作驱动,小表载入所有mapper内存中

    5. 对于数据分布不均衡的表Group by时,为避免数据集中到少数的reducer上,分成两个map-reduce阶段。第一个阶段先用Distinct列进行shuffle,然后在reduce端部分聚合,减小数据规模,第二个map-reduce阶段再按group-by列聚合。

    6. 在map端用hash进行部分聚合,减小reduce端数据处理规模。

    8、Hive的部署方式? 三种

    1、内嵌模式:使用内嵌的Derby数据库作为存储元数据,Derby只能接受一个Hive会话的访问,不能用于生产; hive服务、metastore服务、derby服务运行在同一个进程中。

    2、本地模式:本地安装mysql,替代derby存储元数据,是一个多用户多客户端的模式,作为公司内部使用Hive;hive服务和metastore服务运行在同一个进程中,mysql数据库则是单独的进程,可以同一台机器,也可以在远程机器上。

    3、远程模式(Remote): 远程安装mysql 替代derby存储元数据;Hive服务和metastore在不同的进程内,也可能是不同的机器;

    将Metastore分离出来,成为一个独立的Hive服务
    可以将Mysql数据库层完全置于防火墙后,不再暴露数据库用户名和密码,避免认证信息的泄漏

    9、Hive支持的主要数据格式?

    文本文件、序列化文件(行)、parquet文件(列)、RCFile(列)、ORC(列)、Avro File(行)

    10、Hive有索引吗?

    Hive是支持索引的,但是很少被使用
    索引表不会自动rebuild,如果表有数据新增或删除,那么必须手动rebuild索引表数据
    索引表本身会非常大
    Hive索引的使用过程比较繁琐

    Hive的两种索引:
    位图索引:普遍用于去重后值比较少的列
    紧凑索引:存储每个值的HDFS块号

    相关文章

      网友评论

        本文标题:Hive体系架构

        本文链接:https://www.haomeiwen.com/subject/pbrsvftx.html