数据迁移
1、问题描述
新搭建了一套CDH5.13.1集群,需要将原apache上的数据迁移至新集群。
2、数据迁移工具
Distcp(分布式拷贝)用于大规模集群内部和集群之间拷贝的工具,使用Map/Reduce
实现文件分发。
3、迁移命令
hadoop distcp 数据源 目标数据源
示例:
hadoop distcp hdfs://dsap0:9000/user/hive/warehouse/XX/XX hdfs://dsap7:8020/user/hive/warehouse/XX/XX
注意点:1、该示例中数据源端口为9000,一般默认端口为8020 2、数据源和目标地址均需指定集群namenode的ip 3、distcp命令在新集群中执行(之前网上没人说,在老集群上执行一直OOM)
4、表格修复
1、创建一个和数据源表一样的表格
2、使用msck命令进行表格修复(hive客户端中执行)
示例:
msck repair table 表名
网友评论