[2019-01-16] Hive的基本概念

作者: 做一只乐观的小猴子 | 来源:发表于2019-01-18 18:53 被阅读0次

[2019-01-16] Hive的基本概念
2020-04-13
Hive 入门
Hive安装配置
11_大数据之Hive_1
spark开发笔记(三、Spark SQL笔记)
Hive学习笔记20200423
Hive 基础搭建教程
51cto赵强HADOOP学习（十）
Hive的基本概念

Hive is based on Hadoop 的数据仓库工具，将structured data file　映射成table,并提供类似sql的查询功能。

特点：　Hive擅长的是非实时的、离线的、对响应及时性要求不高的海量数据批量计算，即席查询，统计分析。

Hql 为查询的接口，HDFS存储，使用mapreduce计算。

与关系型数据库的区别：

①数据库可以用在Online的应用中，Hive主要进行离线的大数据分析；

②数据库的查询语句为SQL，Hive的查询语句为HQL；

③数据库数据存储在LocalFS，Hive的数据存储在HDFS；

④Hive执行MapReduce，MySQL执行Executor；

⑤Hive没有索引；

⑥Hive延迟性高；

⑦Hive可扩展性高；

⑧Hive数据规模大；

HDFS本身就设计为一次写入，多次读取的分布式存储系统，因此，不能使用Hive来完成诸如DELETE、UPDATE等在线事务处理的需求；

Hadoop本身是一个批处理，高延迟的计算框架，Hive使用Hadoop作为执行引擎，自然也就有了批处理，高延迟的特点，在数据量很小的时候，Hive执行也需要消耗较长时间来完成，就显示不出它与Oracle，Mysql等传统数据库的优势。

Hive的数据单元

Database

Tables

Partitions

Buckets:　同一分区的数据可以细分，将想同的key再分至一个bucket中。类似Hash分区。

数据类型:

（a) 原始型数据类型

整型: TINYINT 微(1个字节 0--255); SMALLINT小（２个字节，-32769--32796); INT(4个字节　-2147483648到2147483647); BIGINT长（８个字节，-2^63到2^63-1）

布尔型（Boolean) : TURE/FALSE)

浮点型：　Float/Double

STRING

(b) 复合型数据类型

structs (任意数据类型组成的结构) ,　maps (k-v对),　arrays (数组).

网友评论

本文标题：[2019-01-16] Hive的基本概念

本文链接：https://www.haomeiwen.com/subject/lsipdqtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

[2019-01-16] Hive的基本概念

相关文章