美文网首页
Hive小文件合并迁移

Hive小文件合并迁移

作者: 大数据技术进阶 | 来源:发表于2017-05-25 14:04 被阅读0次

1 需求

Hive数据库内有4张表,每张表有1TB左右数据,按天分区,需要将这4张表的数据迁移到另一个集群。因为两个Hadoop集群都开启了kerberos身份认证,直接进行数据迁移不太好实现,所以需要先将A集群的数据下载到本地,再迁移到B集群本地,最后从B本地上传到B集群的Hive库里。不过有一个问题,因为Hive库表中有大量的小文件,若直接下载上传这些小文件,速度特别的慢,所以得先进行一步小文件合并工作。需求和方案明确后进行具体操作。

2 小文件合并

我们通过SparkSQL进行小文件合并,首先开启spark-shell申请足够多的资源:

spark-shell --master yarn --driver-memory 20g  --driver-cores 4 --executor-cores 6 --num-executors 18 -- executor-memory 18g 

依次合并Hive表各分区的小文件,将几十万个小文件合并为50个大文件:

sqlContext.read.parquet(“/wa/hive/fms/t_flowdata/time_part=2017-03-20/”).repartition(50).write.parquet(“/apps/hive/fms/t_flowdata/time_part=2017-03-20/”);
sqlContext.read.parquet(“/wa/hive/fms/t_flowdata/time_part=2017-03-21/”).repartition(50).write.parquet(“/apps/hive/fms/t_flowdata/time_part=2017-03-21/”);
……

3 下载上传文件

在A集群下载合并后的Hive表文件到本地目录,为提高下载效率可以开多个终端,每个终端下载不同分区数据到不同磁盘目录中。

hdfs dfs –get /apps/hive/fms/t_flowdata/ /data/data1/

A集群数据下载完成后需要传到B集群本地目录,然后通过HDFS命令上传到B集群的Hive库中:

scp –r /data/data1/t_flowdata B:/data/data1/
hdfs dfs –put /data/data1/  /wa/hive/fms/t_flowdata/

我们将A集群Hive库里的表文件导入了B集群的Hive库。最后需要连接B集群Hive库,添加导入的表分区元数据给对应表,以使可以通过sql查询到B集群Hive库里的导入分区数据。

beeline –u “jdbc:hive2://node10:10000/;principal=hive/node10@HADOOP.COM”
use fms;
alter table t_flowdata add partition(time_part=’ 2017-03-20’);
alter table t_flowdata add partition(time_part=’ 2017-03-21’);

至此,跨越两个开启kerberos认证的Hadoop集群,迁移包含大量小文件的Hive库数据的任务完成。
注意:小文件合并步骤必不可少,两个集群间大量小文件的传输性能会异常的低下。而且还会给namenode增加很大的压力。

相关文章

  • Hive小文件合并迁移

    1 需求 Hive数据库内有4张表,每张表有1TB左右数据,按天分区,需要将这4张表的数据迁移到另一个集群。因为...

  • HIVE:小文件合并

    HDFS非常容易存储大数据文件,如果Hive中存在过多的小文件会给namecode带来巨大的性能压力。同时小文件过...

  • hive合并小文件

    参考资料:https://blog.csdn.net/lalaguozhe/article/details/905...

  • Spark 处理小文件

    1. 小文件合并综述 1.1 小文件表现 不论是Hive还是Spark SQL在使用过程中都可能会遇到小文件过多的...

  • Hive碎碎念(9):HIVE前缀

    转载请在文章起始处注明出处,谢谢。 --1、配置MR任务结束后进行文件合并(合并小文件) set hive.mer...

  • hive小文件合并问题

    背景 Hivequery将运算好的数据写回hdfs(比如insert into语句),有时候会产生大量的小文件,如...

  • (6)优化问题

    (1)减少job数量 (2)对小文件进行合并,是行至有效的提高调度效率的方法。 hive.merge.mapfil...

  • 大数据开发:Hive小文件合并

    Hadoop生态技术体系下,负责大数据存储管理的组件,涉及到HDFS、Hive、Hbase等。Hive作为数据仓库...

  • Hadoop优化

    1.数据输入小文件处理a.合并小文件:对小文件进行归档、自定义inputFormat将小文件存储成sequence...

  • Hive和Spark当中对小文件的处理

    Hive当中对小文件的处理 数仓面试高频考点:【在Hive中如何解析小文件过多问题,指定的是:处理表中数据时,有很...

网友评论

      本文标题:Hive小文件合并迁移

      本文链接:https://www.haomeiwen.com/subject/ejfzxxtx.html