美文网首页
Hadoop集群修改数据副本

Hadoop集群修改数据副本

作者: yiming1012 | 来源:发表于2020-03-30 17:26 被阅读0次

导论

    最近发现生产Hadoop集群磁盘利用率达到了60%,数据增长速度超出了预期。针对以上问题,提出了两种方案:

1、减少数据的副本
2、增加磁盘或节点

本文主要记录修改数据备份<dfs.replication>的过程。

步骤

1、修改hdfs-site.xml文件

<property>
        <name>dfs.replication</name>
        <value>2</value>
</property>

2、重启hdfs

./stop-dfs.sh
./start-dfs.sh

`注意`:一般重启集群的流程是:stop集群-修改配置文件-start集群。
我们的应用场景是HBase一直有数据写入,如果按照上面的流程,可能会出现HBase连接超时,从而导致数据丢失。
所以,采用了先改配置,再重启集群的方式。

3、验证


注意:上传到HDFS的数据,便只有两个备份了,该操作只针对后面新增的数据,而之前已存在的数据仍然是三个备份。

4、修改已存在数据的备份

命令格式: hdfs fs -setrep [-R] [-w] <numReplicas> <path>
操作举例: hdfs dfs -setrep -R -w 2 /hbase

参数说明:

  • -R:作用于目录下所有子目录的数据(向后兼容)
  • -w:等待副本复制完成
  • -rep:numReplicas,修改后的备份数
  • -path:需要修改备份的HDFS上的目录下

     命令执行过程中,会比较耗时,也有可能会中断(原因暂时不明),中断后可多试几次,该命令执行的过程中不会影响数据的写入。

5、通过命令查看副本数情况

执行命令:hdfs fsck /

有上面可以看出,数据备份由3变成了2.5,说明语句产生了效果。

相关文章

  • Hadoop集群修改数据副本

    导论 最近发现生产Hadoop集群磁盘利用率达到了60%,数据增长速度超出了预期。针对以上问题,提出了两种方案: ...

  • hadoop入门(二)

    java访问hdfs 一.启动集群,验证集群是否启动 二.修改hadoop数据存放目录1.所有机器都要修改 2,格...

  • hdfs文件迁移

    hadoop跨集群之间迁移HDFS数据 不同hadoop集群之间迁移hive数据 hadoop跨集群之间迁移hiv...

  • HDFS三大组件

    NameNode介绍: 职责:负责客户端请求(读写数据)的响应元数据的管理(查询,修改)配置副本存放策略管理集群数...

  • 大数据开发环境搭载4--安装Hadoop HA集群

    4、安装Hadoop HA集群 下载 将Hadoop安装到/usr/local/hadoop 修改/etc/pro...

  • hadoop修改文件副本数

    hadoop修改文件副本数 Hadoop上默认一个人间的副本数是3,这个也是可以再配置文件中

  • hadoop缩减datanode

    1、配置NameNode的hdfs-site.xml,适当减小dfs.replication副本数,增加dfs.h...

  • hadoop集群 distcp 缓慢 两个hadoop集群之间使用distcp拷贝时,发现集群之间拷贝数据缓慢,最...

  • 大数据集群搭建2

    大数据集群搭建 本文档将搭建以下集群 hadoop 集群 zookeeper 集群 hbase 集群 spark ...

  • 大数据集群搭建

    大数据集群搭建 本文档将搭建以下集群 hadoop 集群 zookeeper 集群 hbase 集群 spark ...

网友评论

      本文标题:Hadoop集群修改数据副本

      本文链接:https://www.haomeiwen.com/subject/znjvuhtx.html