美文网首页
Hadoop集群间数据迁移

Hadoop集群间数据迁移

作者: 朱佳宇 | 来源:发表于2018-07-05 09:54 被阅读0次

    数据迁移

    1、问题描述

    新搭建了一套CDH5.13.1集群,需要将原apache上的数据迁移至新集群。

    2、数据迁移工具

    Distcp(分布式拷贝)用于大规模集群内部和集群之间拷贝的工具,使用Map/Reduce
    实现文件分发。

    3、迁移命令

    hadoop distcp 数据源 目标数据源
    示例:
    hadoop distcp hdfs://dsap0:9000/user/hive/warehouse/XX/XX hdfs://dsap7:8020/user/hive/warehouse/XX/XX
    注意点:1、该示例中数据源端口为9000,一般默认端口为8020 2、数据源和目标地址均需指定集群namenode的ip 3、distcp命令在新集群中执行(之前网上没人说,在老集群上执行一直OOM)

    4、表格修复

    1、创建一个和数据源表一样的表格
    2、使用msck命令进行表格修复(hive客户端中执行)
    示例:
    msck repair table 表名

    相关文章

      网友评论

          本文标题:Hadoop集群间数据迁移

          本文链接:https://www.haomeiwen.com/subject/rtvuuftx.html