Hive

Hive

作者: 山间浓雾有路灯 | 来源:发表于2019-07-15 15:44 被阅读0次

数据仓库Hive
数据查询-Hive基础
大数据知识 | hive初识
Hive | Hive 安装详解
Hive日常使用
Hive常用的几种交互操作
【Hive】
Hive进阶
Hive 入门
大数据开发之Hive优化篇2-Hive的explain命令

是什么

Hive是一个SQL解析引擎，将SQL语句转译成MapReduce Job，然后在Hadoop平台上运行，达到快速开发的目的。
Hive中的表是纯逻辑表，表的定义（元数据）。本质就是Hadoop的目录/文件，达到了元数据和数据存储分离的目的
Hive本身不存储数据，完全依赖HDFS和MapReduce，数据实际存在HDFS，元数据基本存在Mysql
Hive内容读多写少，不支持对数据的改写和删除
Hive中没有定义专门的数据格式，由用户指定
- 列分隔符：空格，\t，\001
- 行分隔符：\n

为什么

Hive中的SQL与传统SQL区别

可扩展性
- UDF:用户自定义普通函数，直接应用于select语句，通常查询的时候，需要对一些字段进行处理（大小写处理等），特点就是一进一出，一对一的场景
- UDAF:用户自定义聚合函数，适用于多对一的场景（group by）
- UDTF:用户自定义表生成函数，适用于一对多场景（split）
数据检查
- 读时模式：
  只有hive读的时候才会检查，解析字段和数据结构表达（scheme）
  优点：写数据很迅速，因为在写的过程中不需要数据解析
- 写时模式：
  缺点：写的慢，需要对数据进行建立索引，压缩、数据一致性、字段检查等等
  优点：读的时候会得到优化

有什么

架构

语句转换

解析器：生成抽象语法树
语法分析器：验证查询语句
逻辑计划生成器（包括优化器）：生成操作符树
查询计划生成器：转换为MapReduce任务，hive本身不会生成MapReduce，而是通过执行查询计划来执行mapr（xml文件---mapper，reduce模块）

数据存储/管理

hive表的本质就是Hadoop的目录/文件，hive默认表存放路径一般在工作目录的hive目录里面，按表名做文件夹分开
元数据（mysql） + 实际数据（HDFS）：
1.默认derby：本地，单用户模式
2.建mysql：多用户模式（本地+远程）
Hive语句生成查询计划，由MapReduce调用执行

数据结构

数据表

内部表（table）：表删除，内部数据也删除
外部表（external table）：表删除，内部数据不删除
建议使用外部表，删除之后重建表，数据自动恢复

分区表（partition）

有限范围内的分区，按照日期等分区，辅助查询，缩小查询范围，加快数据检索速度

分桶表（bucket）

hive会针对某一列进行桶的组织，通常对列值hash（取模分桶号）
分桶时需要先执行set hive.enforce.bucketing=true
优点：
- 优化查询：把两个大表的join分成了小表join，会自动激活map端的map-side-join
- 方便取样：可以在大规模数据中取小部分进行采样分析
采样
- 语法：tablesample是抽样语句,TABLESAMPLE(BUCKET x OUT OF y)
- 示例：select * from student tablesample(bucket 1 out of 2 on id)
- 解析：y必须是table总bucket数的倍数或者因子。例如,table总bucket数为32,tablesample(bucket 3 out of 16),表示总共抽取(32/16=)2个bucket的数据,分别为第3个bucket和第(3+16=)19个bucket的数据

数据类型

原生类型
- TINYINT
- SMALLINT
- INT
- BIGINT
- BOOLEAN
- FLOAT
- DOUBLE
- STRING
- BINARY(Hive0.8.0以上才可用)
- TIMESTAMP(Hive0.8.0以上才可用)
复合类型
- Arrays:ARRAY<data_type>
- Maps:Map<Key,Value>
- Structs:STRUCT<col_name:data_type>
- Union:UNIONTYPE<data_type,data_type,.......>

相关文章

数据仓库Hive
Hive产生背景 Hive概述 HIve体系架构 Hive部署架构 Hive和RDBMS区别 Hive部署以及快速...
数据查询-Hive基础
outline 什么是Hive 为什么需要Hive Hive的架构 Hive的常用操作什么是Hive Hive由...
大数据知识 | hive初识
hive简介 hive架构 hive是什么官网这样说：https://hive.apache.org/ hive...
Hive | Hive 安装详解
一、Hive 介绍二、准备工作三、Hive下载四、Hive 安装五、Hive 启动一、Hive 介绍 H...
Hive日常使用
hive 创建表： hive 执行： =========================hive 调用Python...
Hive常用的几种交互操作
查看hive下的交互命令方式 -help（hive 外）命令：bin/hive -helpusage: hive...
【Hive】
Hive的安装 Hive官网地址 http://hive.apache.org/[http://hive.apac...
Hive进阶
hive配置，命令 hive查询显示列名 hive默认分隔符 \001 hive命令行中查看当前hive环境变量 ...
Hive 入门
Hive官网 Hive概述 Hive 的底层执行引擎有：MapReduce，Tez，Spark- Hive on...
大数据开发之Hive优化篇2-Hive的explain命令
备注:Hive 版本 2.1.1 一.Hive explain命令概述 Hive的explain命令用来看Hive...

网友评论

本文标题：Hive

本文链接：https://www.haomeiwen.com/subject/amalkctx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

大数据，机器学习，人工智能

随笔-生活工作点滴

玩转大数据

热点阅读

大数据，机器学习，人工智能

随笔-生活工作点滴

大数据

@IT·大数据

玩转大数据

关于我们|服务条款|联系我们|Hive|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！