关于 hive的迁移之数据迁移和跨集群备份

作者: Helen_Cat | 来源:发表于2018-06-28 17:20 被阅读24次

hdfs文件迁移
关于 hive的迁移之数据迁移和跨集群备份
一篇文章教你自建hadoop集群迁移到EMR
HBase 的数据迁移importTsv功能
在线不停服迁移自建ES集群至腾讯云ES
Elasticsearch数据迁移与集群容灾
hive的这些事（一）——hive数据迁移
HBase跨集群迁移调研方案
hive 跨集群迁移表
ES:reindex中的坑

昨天讲了表结构的迁移，结合 shell 和 hive -e 和 hive -f 基本小试牛刀完成了，重中之重其实是数据的迁移和跨集群的数据定时备份

今天讲数据迁移，依然使用的是最笨的方法也是最有效的，
首先我们的表是分区表，比如有 client_nmbr batch 两个分区
，我们从A集群导出，在导入到 B集群，都是批量导入，不可能每条鱼验证它是哪个分区的再插入，这样效率比较低，所以我们必须在从A集群导出的时候就要做好他是哪个分区的，根据分区来生成一个单独的文件，这样我们在B集群导入的时候就是以文件件代表分区，批量写入，

另外内，以后如果数据迁移成为一个定时任务要去备份的话，我们应该是以增量备份，而不是全量备份，怎么判断增量呢，使用上面的两个字段都无法做到，那我们就应该考虑建在分区上该如何表示增量呢，答案是时间字段，假如我 3月20日备份过一次，一个月备份一次，那么我在4月20号要备份的时候就要从3月21日新增的结果进行备份，这样增量可以标识出来，节省了空间和时间

具体如何通过分区来备份呢，这个看hive为我们提供的几个命令
show tables;
show partitions tablename;
下面可以看看shell 的伪代码

#! /bin/bash

ex_dir=export_zip

mkdir ./$ex_dir
for  table in  `hive -e 'use fkdb,show tables'`;do
     dirsub=_data;
     mkdir -p  ./$table$dirsub;
     for  partition in `show partitions $table`;do
#假设 partition=client_nmbr=AA108/batch=p1
        cli_bat=`echo $partition |grep  -o --color  '[0-9]*'`
        client_nmbr=${cli_bat[0]};
        batch=${cli_bat[1]};
        ex_file=$table$partition
        touch ./$table$dirsub/$ex_file

        hive -e 'select * from $table where client_nmbr=$client_nmbr and  batch=$batch' >> ./$table$dirsub/$ex_file
     zip_extension=.zip
     zip -r ./$ex_dir/$table$dirsub$zip_extension ./$table$dirsub

通过这个shell 脚本就可以批量导出这些表分区的数据文件，是不是很酷，
并且打包成zip文件

之后将这些文件上传到B 集群，通过对文件名的正则匹配到分区后
使用批量插入脚本 for 变量到 hive 仓库中

网友评论

本文标题：关于 hive的迁移之数据迁移和跨集群备份

本文链接：https://www.haomeiwen.com/subject/wutnyftx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

关于 hive的迁移之数据迁移和跨集群备份

相关文章

hdfs文件迁移