美文网首页
hive概述

hive概述

作者: 小鑫_2bc0 | 来源:发表于2019-07-17 20:23 被阅读0次

与数据库的区别:

查询语言相似、执行引擎不相似

数据更新不同、延时性不同

索引

数据规模、可扩张性

元数据信息:

表名、数据库名、内外表、位置、所有者、字段名

操作:

-e 执行后面sql语句

-f后面执行sql文件

case:sum(case name when “zhangsna” then 1 else 0 end)

行转列:CONCAT,CONCAT_WS

列转行:lateral view explode(id) tabelview as colomnview;  COLLECT_SET(col)

窗口函数:over()

排名函数:RANK() 排序相同时会重复,总数不会变

                  DENSE_RANK()排序相同时会重复,总数会减少

                  ROW_NUMBER() 会根据顺序计算

分区与分桶:

分区是文件夹,针对存储路径

分桶是针对数据文件

优化:

抽样查询:select * from stu tablesample(bucket 1 out of 4

on id);理解1和4的意思

小表在后面

where可以减少数据量的放在后面

fetch抓取设置为more

本地模式set hive.exec.mode.local.auto=true; 根据文件大小和数量

mapjoin开启

优化groupby操作:hive.map.aggr = true;hive.groupby.skewindata = true

关于null:使用nvl进行null的转化。join先去除null或者给null一个随机值

动态分区:insert into stu partition (p_time)

select id, time, uid, p_time from ori_partitioned;

并行执行 :hive.exec.parallel=true;

JVM重用:mapred-site.xml设置mapreduce.job.jvm.numtasks

相关文章

  • 数据仓库Hive

    Hive产生背景 Hive概述 HIve体系架构 Hive部署架构 Hive和RDBMS区别 Hive部署以及快速...

  • Hive 入门

    Hive官网 Hive概述 Hive 的底层执行引擎有 :MapReduce,Tez,Spark- Hive on...

  • 大数据开发之Hive优化篇2-Hive的explain命令

    备注:Hive 版本 2.1.1 一.Hive explain命令概述 Hive的explain命令用来看Hive...

  • hive概述

    与数据库的区别: 查询语言相似、执行引擎不相似 数据更新不同、延时性不同 索引 数据规模、可扩张性 元数据信息: ...

  • Hive概述

    Hive概念 由Facebook开源用于解决海量结构化日志的数据统计。 Hive是基于Hadoop的一个数据仓库工...

  • Hive概述

      Hive是一款基于Hadoop的数据仓库,用于统计海量结构化数据。Hive能够将HQL语句转换成MapRedu...

  • 大数据开发之Hive篇5-Hive数据查询语言

    备注:Hive 版本 2.1.1 一.Hive SELECT(数据查询语言)概述 select语句是Hive中使用...

  • hive(一):hive概述

    2.1 Hive安装地址 1)Hive官网地址 https://hive.apache.org/[https://...

  • hive(一):hive概述

    1.1 什么是Hive 1) Hive简介 2) Hive本质:将HQL转化成MapReduce程序 [图片上传失...

  • 动态分区说明

    Hive分区 Hive的动态分区 概述 hive中支持两种类型的分区: 静态分区SP(static partiti...

网友评论

      本文标题:hive概述

      本文链接:https://www.haomeiwen.com/subject/litclctx.html