第8章基于Hadoop的数据仓库-Hive

作者: 迪丽娜扎 | 来源:发表于2020-01-28 23:33 被阅读0次

大数据开发之Hive优化篇6-Hive on spark
hive基础入门与环境的搭建
[译]Hive学习指南（一）
初识Hive和Hadoop 2020-04-11
Hive体系架构
（一）HIVE基本概念原理
HiveSQL解析过程详解
Hive SQL解析过程详解
Hive SQL的编译过程（转）
Hive介绍及结构设计

（本章教材上没有）

8.1 概述

8.1.1 数据仓库概念

概念
数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据结合，用于支持管理决策。
典型的体系结构
包含四个层次：数据源、数据存储和管理、分析和挖掘引擎、应用。分别阐述如下。
1）数据源：企业各个环节中所产生的所有数据。
2）数据存储和管理：① ETL过程，即数据的抽取、转换、加载、存储等；② 数仓的监视、运行、维护工具等
3）分析与挖掘：与传统数据库相比两个特点：① 很多数据都是一经写入不再更改，② 数仓保留了几乎全部的历史数据。基于上述数据可以进行各种统计、机器学习等
4）应用：报表、查询工具、分析工具等

8.1.2 传统数仓面临的挑战

传统数仓都是基于关系型数据库构建，有以下老生常谈的缺点：
1）无法满足海量数据的存储需求
2）无法处理不同类型的数据
3）计算和处理能力不足，扩展性差

8.1.3 Hive简介

1）构建于Hadoop顶层的数仓工具，支持大规模数据的存储、分析，具有良好的扩展性
2）但hive本身只是提供用户编程接口，存储依赖为HDFS，处理依赖于MapReduce
3）提供了类SQL语句，称之为HiveQL，学习门槛低
4）采用批处理方式
5）提供了一系列ETL工具，可满足数仓各种业务场景

8.1.4 Hive和Hadoop生态系统中其它组件的关系

1）如前文所描述：依赖于HDFS进行存储，依赖于MR进行处理
2）Pig则是与Hive些许类似的产品，但Pig更适合于轻量级、实时交互式分析，主战场是ETL环节。而hive的战场是后续的分析工作。当然Pig和Hive都可以完成ETL工作。
3）HBase提供数据的实时访问、随机读写，适用于实时交互式查询。

8.1.5 Hive与传统数据库对比

1）hive只支持批量导入，而传统数据库可支持单条和批量
2）hive不支持数据更新
3）都支持索引
4）都支持分区
5）传统数据库秒级响应，hive最快也得分钟级响应
6）hive强扩展性

8.1.6 hive在企业中的应用

0）HDFS和MR是核心组件没得说，其它产品都是基于这两个核心组件
1）hive和pig应用于报表生成等组件
2）HBase应用于在线业务
3）Mahout应用于商务智能，其实现了很多机器学习算法
注：Hive是facebook开发的

8.2 Hive系统架构

三个核心模块：用户接口模块、驱动模块、元数据存储模块。分别加以阐述。

Hive系统架构

1）用户接口模块包括：
CLI - 命令行接口，
HWI - Web访问，
JDBC、ODBC、Thrift Server - 通过这些接口实现RPC访问
2）驱动模块（driver），包括编译器、优化器、执行器，负责把HiveSQL语句转换为一系列的MapReduce作业
3）元数据存储模块（Metastore）：用于存储元数据（有那些表，表有哪些列，列叫啥名）。这个模块用的其实是一个独立的关系型数据库。
在架构图上可以看出，还有Karamasphere、Hue、Qubole等访问工具，其中HUE应用应该较多

8.3 Hive工作原理

8.3.1 把SQL语句转换为MR作业的基本原理略

8.3.2 把SQL语句转换为MR作业的过程略

8.4 Hive HA基本原理

是一个提高稳定性的工具，具体略

8.5 Impala

8.5.1 Impala简介

由Cloudera公司开发，与Hive类似，但在性能上比Hive高出3~30倍，依赖于Hive的元数据，提供SQL语句，可查询存储在HDFS和HBase上的PB级数据。
与Hive不同的是，其查询时底层用的是类似商用并行关系型数据库的分布式查询引擎，而不是转化成MR作业，所以快的多。

8.5.2 Impala系统架构

impala系统架构

上图所示中，虚线框是Impala组件，实线框是其它组件，可以看到Impala每个组件都是架构在某些Hadoop组件之上的。核心部分包括Impalad、State Store、CLI三个模块。
1）Impalad：协调客户端提交的查询的执行，与HDFS的数据节点运行在同一个节点上，Impalad之间可以互相分配任务，等。
2）State Store：收集各个Impalad进程的资源信息，用于查询调度。
3）CLI：命令行工具

8.5.3 Impala查询执行过程

impala查询执行过程图

8.5.4 Impala和Hive的比较

不同点
1）hive适合长时间批处理查询分析，impala适合实时交互式查询
2）hive依赖于MR，impala则不然
3）hive查询过程中内存不够则启用外存，但impala不会
相同点
1）使用相同的存储数据池，都支持HDFS和HBase
2）使用相同的元数据
3）都是SQL语句
总结
impala不能取代现有的MR，把hive和impala配合使用效果最佳，可以先使用hive进行数据转换处理，生成比较规范的数据，然后在此结果之上应用impala进行快速的数据分析。

8.6 Hive编程实践

1）创建表：create
2）查看数据库、表、视图等：show
3）向表中装载数据：load data (local inpath|hdfs path) ‘/xx/xx/xx’ overwrite/into datble tablename
4）向表中插入数据：insert overwrite/into table tablename select ...

网友评论

本文标题：第8章基于Hadoop的数据仓库-Hive

本文链接：https://www.haomeiwen.com/subject/luimthtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

第8章基于Hadoop的数据仓库-Hive

8.1 概述

8.1.1 数据仓库概念

8.1.2 传统数仓面临的挑战

8.1.3 Hive简介

8.1.4 Hive和Hadoop生态系统中其它组件的关系

8.1.5 Hive与传统数据库对比

8.1.6 hive在企业中的应用

8.2 Hive系统架构

8.3 Hive工作原理

8.3.1 把SQL语句转换为MR作业的基本原理略

8.3.2 把SQL语句转换为MR作业的过程略

8.4 Hive HA基本原理

8.5 Impala

8.5.1 Impala简介

8.5.2 Impala系统架构

8.5.3 Impala查询执行过程

8.5.4 Impala和Hive的比较

8.6 Hive编程实践

相关文章

大数据开发之Hive优化篇6-Hive on spark

hive基础入门与环境的搭建

[译]Hive学习指南（一）

初识Hive和Hadoop 2020-04-11

Hive体系架构

（一）HIVE基本概念原理

HiveSQL解析过程详解

Hive SQL解析过程详解

Hive SQL的编译过程（转）

Hive介绍及结构设计

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

第8章 基于Hadoop的数据仓库-Hive

8.1 概述

8.1.1 数据仓库概念

8.1.2 传统数仓面临的挑战

8.1.3 Hive简介

8.1.4 Hive和Hadoop生态系统中其它组件的关系

8.1.5 Hive与传统数据库对比

8.1.6 hive在企业中的应用

8.2 Hive系统架构

8.3 Hive工作原理

8.3.1 把SQL语句转换为MR作业的基本原理 略

8.3.2 把SQL语句转换为MR作业的过程 略

8.4 Hive HA基本原理

8.5 Impala

8.5.1 Impala简介

8.5.2 Impala系统架构

8.5.3 Impala查询执行过程

8.5.4 Impala和Hive的比较

8.6 Hive编程实践

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

第8章基于Hadoop的数据仓库-Hive

8.3.1 把SQL语句转换为MR作业的基本原理略

8.3.2 把SQL语句转换为MR作业的过程略