美文网首页程序员每天写1000字简友广场
数据仓库工具Hive的功能介绍

数据仓库工具Hive的功能介绍

作者: 皮皮杂谈 | 来源:发表于2019-05-30 10:19 被阅读19次

Hive是Hadoop项目中的另一个子项目,它是建立在Hadoop基础之上的数据仓库工具,可以存储、查询和分析存储在HDFS中的大规模数据。从架构上看,Hive功能模块包括用户端、解释器、元数据存储和分析数据存储。如下图所示:

Hive功能结构

用户端:主要包含命令行(CLI)、客户端(Client)和Web图形化界面(WebGUI)。最常用的是CLI,它启动的时候会同时启动一个Hive守护进程服务,使用者可以交互式地输入地输入命令并得到相应的结果输出。Client是Hive的客户端,用户通过它连接到Hive的服务器。Client模式启动的时候,需要启动Hive服务器所在的节点,并进行相应的配置。WebGUI工具允许用户通过浏览器访问Hive,使用前要启动HWI组件(Hive Web Interface)。

解释器:主要包含执行编译器、优化器和执行器,它们完成HiveQL查询语句的词法分析、语法分析、编译、优化及计划的生成。生成的查询计划也会存储在HDFS中,并在随后通过MapReduce框架调用执行。这也体现了Hive的核心思想之一,就是尽量简化MapReduce开发的工作量,使得某些操作和查询的复杂逻辑对使用者完全透明。

元数据存储:Hive中的元数据包括表的名字、表的列、表分区、表数据所在的目录、是否为外部表,等等。尽管Hive采用NoSQL的方式进行工作,但它仍然使用关系型数据库存储元数据,这点主要是考虑到元数据的规模较小,而对读写同步的要求很高。此外,将元数据的存储从Hive的数据服务中解耦出来,可以大大减少执行语义检查的时间,也能提高整个系统运行的健壮性。常用的关系型数据库配置是MySQL或Derby嵌入式数据库。

分析数据存储:Hive用于分析的海量数据都存储在HDFS之中,支持不同的存储类型包括纯文本文件、HBase等文件。一旦解释器接受了HiveQL,那么Hive将直接读取HDFS的数据,并将查询逻辑转化成MapReduce计算来完成。

相关文章

  • 数据仓库工具Hive的功能介绍

    Hive是Hadoop项目中的另一个子项目,它是建立在Hadoop基础之上的数据仓库工具,可以存储、查询和分析存储...

  • 数据科学之路(7)即席查询工具Impala

    我们在前面两篇中介绍了数据仓库工具 Hive,但是早期的 Hive 是依赖 Hadoop 的 MapReduce ...

  • Hive中的msck和analyze table的作用

    0. Hive使用中遇到的问题 Hive是常用的数据仓库工具,功能强大,操作简便。在使用Hive的过程中,经常碰见...

  • 大数据开发之Hive优化篇6-Hive on spark

    备注:Hive 版本 2.1.1 一.Hive on Spark介绍 Hive是基于Hadoop平台的数据仓库,最...

  • Hive体系架构

    参考:Hive: 基于 Hadoop 的数据仓库工具hive体系结构和执行流程 1、Hive产生背景 MapRed...

  • Hive--可执行SQL的Hadoop数据仓库管理工具

    Hive是一个基于HDFS的数据仓库软件,可理解为数据库管理工具;Hive的功能主要有: 1. 支持使用SQL对分...

  • 数据仓库工具Hive

    数据仓库工具Hive Hive产生背景 直接使用MapReduce处理大数据,问题: MapReduce开放难度大...

  • 实训总结20170917

    hive介绍 基于Hadoop的一个数据仓库工具,构建于hadoop的hdfs和mapred之上,用于管理和查询结...

  • hive

    HIVE 介绍 (1)hive 是基于 Hadoop 的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表...

  • hive之路(1)

    hive简介 hive是什么? hive是基于hadoop的数据仓库工具,他可以将结构化的数据(HDFS)映射成一...

网友评论

    本文标题:数据仓库工具Hive的功能介绍

    本文链接:https://www.haomeiwen.com/subject/amhmtctx.html