hive相关

作者: 喝奶茶不加奶茶 | 来源:发表于2020-07-18 15:56 被阅读0次

Hive也是数据库的一种,hivesql和mysql使用起来并没有什么不同,数据插入、表关联查询都是一样的,二者都是sql语法。
重点掌握两个:

  • hdfs文件系统(分布式文件系统)
  • hive的窗口函数
    注意:窗口函数在mysql8.0版本是支持的,但是5.7版本并不支持。

利用hive命令进入hive窗口,速度会有延迟,这是因为作为数据仓库的hive并不注重查询的时间性,更倾向于数据的分析、保存。所以如果生产系统用hive系统是肯定不合适的。

Hive函数大全

Hive的窗口函数

注意:over()才是窗口函数,而sum、row_number、count只是与over()搭配的分析函数

1、row_number()over()

举例:查出每种性别中年龄最大的两条数据
准备工作:



over()就是进行分组排序的一些操作。(注意在编辑器中写代码时不要有tab缩进,不然复制到hive中会产生错误)

解答代码:

select
*,
row_number() over(partition by sex order by age desc) as rn 
from userinfo;



select *
from 
(select
*,
row_number() over(partition by sex order by age desc) as rn 
from userinfo) t
where rn<=2;

注意:row_number() over()不考虑重复数据,比如如果两个人的年龄一样也会排出先后,不会是相同的排名。
应用:可以用来对数据去重,当想保留一条数据时,就可以让m=1,这样就只取了每组数据的一条记录,达到了去重给的目的。

2、sum() over()

举例:
有一份产品的消费记录数据,要求按时间累计统计到当月的总额
准备工作:



回答:

select
product_name,
month,
money,
sum(money) over(partition by product_name order by month) as all_money
from saleinfo;

小记录:
sql提取某一类别的第一条记录,直接group by 即可,但如果是查询某一类别中的前几条记录,有两个角度,一是利用赋值变量对齐进行排序然后选取要求的行数;另外一个思路是利用窗口函数。

易混概念区分:

  • 大数据:

1、有海量的数据

2、有对海量数据进行挖掘的需求

3、有对海量数据进行挖掘的软件工具(hadoop、spark、storm、flink、tez、impala......)

  • hadoop
    对海量数据进行挖掘的软件工具
  • hive
    数据库的一种
  • hdfs
    分布式文件系统
#在linux下创建文件student.txt,然后再放到hive中的表中
$ hadoop fs -put hdfs://localhost:9000/user/hive/warehouse/zyq_db/student.txt

#或者在linux中创建数据(vi data.txt--cat data.txt),然后再hive中load data

#load data 命令要在hive中执行
 load data local inpath '/home/frog005/student.txt' into table student;

什么是大数据,hadoop和hdfs又是什么?

相关文章

  • hive相关

    HQL优化 1. HQL优化 一、避免or操作的不当。如果where子句中有多个条件,并且其中某个条件没有索引,使...

  • hive 相关

    hive 相关 搭建hadoop和hive,mysql的环境,过程截图 1.hadoop install 2.m...

  • hive相关

    Hive也是数据库的一种,hivesql和mysql使用起来并没有什么不同,数据插入、表关联查询都是一样的,二者都...

  • hive相关基础

    hive相关基础 1、进入到hive命令下;(linux下直接输入hive即可) hive 2、查看工作分区下的h...

  • 大数据学习教程

    Hadoop生态 Hadoop相关内容 Spark Spark系列教程 Hive Hive快速入门 Elastic...

  • docker 构建hadoop 环境

    技能库 docker 相关 linux 相关 shell 相关 hadoop hive 准备文件 jdk 安装包:...

  • Hive优化实践1-数据倾斜及join无关的优化

    Hive SQL的各种优化方法基本 都和数据倾斜密切相关。 Hive的优化分为join相关的优化和join无关的优...

  • hive相关知识

    hive概念 hive的兼容性 hive日志 启动hive hive中除了保存真正的数据以外还要额外保存用来描述库...

  • Hive相关优化

    map优化 优化并发个数 减少map数,合并小文件set mapred.max.split.size=100000...

  • Hive SQL 相关

    1.Hive 连接查询JOIN2.hive 导入数据的方式3.hadoop streaming内存超限解决方案4....

网友评论

    本文标题:hive相关

    本文链接:https://www.haomeiwen.com/subject/gjfxkktx.html