美文网首页
hadoop 多目录配置 集群性能基准测试 集群数据间平衡

hadoop 多目录配置 集群性能基准测试 集群数据间平衡

作者: 无来无去_A | 来源:发表于2020-07-28 20:03 被阅读0次

    项目经验之HDFS存储多目录

    1. 生产环境服务器磁盘情况


      image.png

    2.在hdfs-site.xml文件中配置多目录,注意新挂载磁盘的访问权限问题。注意新挂载磁盘的访问权限问题。注意新挂载磁盘的访问权限问题。注意新挂载磁盘的访问权限问题。注意新挂载磁盘的访问权限问题。注意新挂载磁盘的访问权限问题。

    HDFS的DataNode节点保存数据的路径由dfs.datanode.data.dir参数决定,其默认值为file://${hadoop.tmp.dir}/dfs/data,若服务器有多个磁盘,必须对该参数进行修改。如服务器磁盘如上图所示,则该参数应修改为如下的值。

    <property>
        <name>dfs.datanode.data.dir</name>
        <value>file:///dfs/data1,file:///hd2/dfs/data2,file:///hd3/dfs/data3,file:///hd4/dfs/data4</value>
    </property>
    
    

    集群数据均衡

    1)节点间数据均衡

    开启数据均衡命令:

    start-balancer.sh -threshold 10
    

    对于参数10,代表的是集群中各个节点的磁盘空间利用率相差不超过10%,可根据实际情况进行调整。

    注意:
    如果你的集群的数据本来已经是均衡的, 此命令启动后就退出了。好像没有感觉倒什么效果

    停止数据均衡命令:

    stop-balancer.sh
    

    2)磁盘间数据均衡

    (1)生成均衡计划

    hdfs diskbalancer -plan hadoop103
    

    (2)执行均衡计划

    hdfs diskbalancer -execute hadoop103.plan.json
    

    (3)查看当前均衡任务的执行情况

    hdfs diskbalancer -query hadoop103
    

    (4)取消均衡任务

    hdfs diskbalancer -cancel hadoop103.plan.json
    

    项目经验之基准测试

    1) 测试HDFS写性能

    测试内容:向HDFS集群写10个128M的文件

    [root@hadoop102 mapreduce]$ hadoop jar 
    /opt/module/hadoop-3.1.3/share/hadoop/mapreduce/hadoop-mapreduce-client-jobclient-3.1.3-tests.jar 
    TestDFSIO -write -nrFiles 10 -fileSize 128MB
    
    2020-04-16 13:41:24,724 INFO fs.TestDFSIO: ----- TestDFSIO ----- : write
    2020-04-16 13:41:24,724 INFO fs.TestDFSIO:             Date & time: Thu Apr 16 13:41:24 CST 2020
    2020-04-16 13:41:24,724 INFO fs.TestDFSIO:         Number of files: 10
    2020-04-16 13:41:24,725 INFO fs.TestDFSIO:  Total MBytes processed: 1280
    2020-04-16 13:41:24,725 INFO fs.TestDFSIO:       Throughput mb/sec: 8.88
    2020-04-16 13:41:24,725 INFO fs.TestDFSIO:  Average IO rate mb/sec: 8.96
    2020-04-16 13:41:24,725 INFO fs.TestDFSIO:   IO rate std deviation: 0.87
    2020-04-16 13:41:24,725 INFO fs.TestDFSIO:      Test exec time sec: 67.61
    
    

    2)测试HDFS读性能

    测试内容:读取HDFS集群10个128M的文件

    [root@hadoop102 mapreduce]$ hadoop jar 
    /opt/module/hadoop-3.1.3/share/hadoop/mapreduce/hadoop-mapreduce-client-jobclient-3.1.3-tests.jar 
    TestDFSIO -read -nrFiles 10 -fileSize 128MB
    
    2020-04-16 13:43:38,857 INFO fs.TestDFSIO: ----- TestDFSIO ----- : read
    2020-04-16 13:43:38,858 INFO fs.TestDFSIO:   Date & time: Thu Apr 16 13:43:38 CST 2020
    2020-04-16 13:43:38,859 INFO fs.TestDFSIO:         Number of files: 10
    2020-04-16 13:43:38,859 INFO fs.TestDFSIO:  Total MBytes processed: 1280
    2020-04-16 13:43:38,859 INFO fs.TestDFSIO:       Throughput mb/sec: 85.54
    2020-04-16 13:43:38,860 INFO fs.TestDFSIO:  Average IO rate mb/sec: 100.21
    2020-04-16 13:43:38,860 INFO fs.TestDFSIO:   IO rate std deviation: 44.37
    2020-04-16 13:43:38,860 INFO fs.TestDFSIO:      Test exec time sec: 53.61
    
    

    3)删除测试生成数据

    [root@hadoop102 mapreduce]$ hadoop jar 
    /opt/module/hadoop-3.1.3/share/hadoop/mapreduce/hadoop-mapreduce-client-jobclient-3.1.3-tests.jar 
    TestDFSIO -clean
    

    4)使用Sort程序评测MapReduce

    (1)使用RandomWriter来产生随机数,每个节点运行10个Map任务,每个Map产生大约1G大小的二进制随机数

    [root@hadoop102 mapreduce]$ hadoop jar 
    /opt/module/hadoop-3.1.3/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar randomwriter random-data
    
    

    (2)执行Sort程序

    [root@hadoop102 mapreduce]$ hadoop jar 
    /opt/module/hadoop-3.1.3/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar 
    sort random-data sorted-data
    

    (3)验证数据是否真正排好序了

    [root@hadoop102 mapreduce]$ 
    hadoop jar 
    /opt/module/hadoop-3.1.3/share/hadoop/mapreduce/hadoop-mapreduce-client-jobclient-3.1.3-tests.jar 
    testmapredsort -sortInput random-data -sortOutput sorted-data
    
    

    相关文章

      网友评论

          本文标题:hadoop 多目录配置 集群性能基准测试 集群数据间平衡

          本文链接:https://www.haomeiwen.com/subject/kwsqrktx.html