美文网首页
hive中间临时数据

hive中间临时数据

作者: 后知不觉1 | 来源:发表于2022-02-23 12:43 被阅读0次

背景

集群磁盘被打爆,导致集群不可用。排查原来是hives的中间数据导致的问题


0357127de0701cfd0d0478813511bd6.png

1、临时数据

1.1、计算引擎的临时数据(mr为例)

mr在shuffle阶段写数据到本地磁盘时的数据也是临时数据,由配置mapreduce.cluster.local.dir 决定,默认位置${hadoop.tmp.dir}/mapred/local,最终在任务完成后会删除临时数据,但是如果这个mr 失败了,临时数据就变成无人管的数据了;需要手动定时清理

1.2、hive的临时数据

hive 产生临时数据原因insert overwrite等sql到hive时,会产生该目录,用于临时存放执行结果,比如insert overwrite会将结果暂存到该目录下,待任务结束,将结果复制到hive表

如果任务失败临时数据就不会自动删除了

配置hive-site.xml

<property>
   <name>hive.exec.stagingdir</name>
   <value>/tmp/hive/${user}</value> # 默认临时文件位置,可以查看hive-site.xml.default.templeate
</property>
1.2.1、hive的临时文件需要配置自动删除脚本

TODO

  • 编写脚本
  • 建立定时任务

相关文章

  • hive中间临时数据

    背景 集群磁盘被打爆,导致集群不可用。排查原来是hives的中间数据导致的问题 1、临时数据 1.1、计算引擎的临...

  • 大数据开发之Hive篇7-Hive临时表

    备注:Hive 版本 2.1.1 一.Hive临时表介绍 作为临时表创建的表将只对当前会话可见。数据将存储在用户的...

  • Hive使用

    使用Hadoop和Hive。 首先,Hive是使用了MapReduce引擎和HDFS存储的中间键,其元数据存储在M...

  • hive调优

    hive调优的多样性 1、通过减少中间临时区,减少MR job的数目,提高性能。 比如 对union all的 S...

  • Hive 基础

    Hive 基础 Hive启动: 插入数据: 插入数据文件: Hive交互命令: 参数配置方式: hive> set...

  • using index,using where,using te

    1. using temporary using temporary 使用临时表用来存储中间数据,这个临时表的建立...

  • Linux下mysql删除库和创建库

    集群中的hive是要用到MySQL数据库的,在此纪录下。因为中间的其他问题曾经删除过一次hive服务,然后重新建h...

  • Hive学习-Hive基本操作(建库、建表、分区表、写数据)

    hive简单认识 Hive是建立在HDFS之上的数据仓库,所以Hive的数据全部存储在HDFS上。Hive的数据分...

  • hive数据迁移实例

    公司要完成hive数据迁移1.创建hdfs临时文件夹来保存数据 生成数据导出脚本执行以下的命令,生成数据导出的脚本...

  • 大数据环境搭建-Hive

    hive压缩包解压 使用mysql存储元数据 创建 hive 账号 hive元数据库 账号授权 通过hive账号...

网友评论

      本文标题:hive中间临时数据

      本文链接:https://www.haomeiwen.com/subject/adxnlrtx.html