走进大数据之Hive入门

作者: Derrick_Xu | 来源:发表于2016-08-23 10:15 被阅读0次

学习目标

Hive是构建在Hadoop之上的数据仓库，它的本质是就是一个数据库

① Hive和一般意义上的数据库有什么区别
② 如何搭建数据库
③ 创建的过程是什么
④ 如何把数据导入到数据库
⑤ 什么是Hive,Hive的体系结构是什么
⑥ Hive如何与hadoop HDFS进行相互操作
⑦ Hive数据与Hadoop中的文件之间的关系

一数据仓库

1.基本概念

概念：数据仓库是一个面向主题的，集成的，不可更新的，随时间不变化的数据集合，它用于支持企业或组织的决策分析处理
面向主题：按主题组织（商品推荐系统）
集成：数据仓库中的数据来自于分散的操作型的数据（oracle,mysql）
不可更新：只做数据查询，一般不做数据更新，删除

2.数据仓库的结构和建立过程

Paste_Image.png

ETL

抽取Extract：提取不同数据源的数据
转化Transform：转化格式，不同数据源的数据格式可能不一致
装载Load：将满足数据格式的数据装载到数据仓库

OLTP：联机事务处理（银行转账，扣钱和加钱的动作应该同时完成，不能只有扣钱没有加钱，或者只有加钱，没有扣钱）操作频率很高
OLAP：联机分析处理（商品推荐系统，一般只做查询，不做更新插入操作）

3.数据仓库中的数据模型

星型模型，雪花模型

以商品信息为核心构建的星型模型

星型模型

雪花模型

二、Hive

1.基本概念

Hive是建立在Hadoop HDFS上的数据仓库基础架构

Hive是SQL解析引擎，它将SQL语句转化成Map、Reduce Job 然后在Hadoop执行
Hive允许熟悉MapReduce的开发者开发自定义的mapper和reducer来处理内建的mapper和reducer无法完成的复杂的分析工作
Hive的表其实就是HDFS的目录/文件

2.Hive的体系结构

Hive的元数据
-Hive将元数据存储在数据库中（metastore），支持mysql,derby等数据库。

元数据

Paste_Image.png

Hive体系结构

网友评论

本文标题：走进大数据之Hive入门

本文链接：https://www.haomeiwen.com/subject/qdqgsttx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

走进大数据之Hive入门

学习目标

一数据仓库

1.基本概念

2.数据仓库的结构和建立过程

3.数据仓库中的数据模型

二、Hive

1.基本概念

2.Hive的体系结构

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

走进大数据之Hive入门

学习目标

一 数据仓库

1.基本概念

2.数据仓库的结构和建立过程

3.数据仓库中的数据模型

二、Hive

1.基本概念

2.Hive的体系结构

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

一数据仓库