美文网首页
2019-01-26 MegaRAID 无缘无故大面积掉盘修复

2019-01-26 MegaRAID 无缘无故大面积掉盘修复

作者: 多吃水果少吃肉 | 来源:发表于2019-01-26 10:20 被阅读0次

    昨天发现服务器上面的程序老是报分不到内存

    Java HotSpot(TM) 64-Bit Server VM warning: INFO: os::commit_memory(0x00007f9bee980000, 4009230336, 0) failed; error='Cannot allocate memory' (errno=12)
    

    因为是刚装的系统,所以内核参数没有调整,按照 https://www.cnblogs.com/rabbitpei/p/6738671.html 这篇文章吧临时和永久的都更改了一下,然后就开始报

    WechatIMG15.png

    查看了一下本来192G的内存只剩96G了,可能服务器时间长了,内存条松动了吧,我这样想着就打开服务器查了一下内存条,没想到啊没想到,不知道怎么碰到RAID的线了,然后再开机raid就initialing。。。


    WechatIMG17.jpeg

    然后raid阵列卡就一直尖叫,我知道一定闯祸了,可我也没动什么啊!
    ctrl + R 打开raid 菜单一看,我的妈呀,十一个盘掉了八个,


    WechatIMG16.jpeg

    赶紧打电话给售后,没想到售后直接判了死刑,说之前遇到过这个问题只有格式化才能重新挂载上,10个T的基因数据!每一次开机都要好几万才能测得的数据啊,我一脸懵逼,网上各种查方法, 要么付费要么重建raid阵列,我为什么没有选择付费?是因为前几天重装系统数据备份过了一次,最近产生的数据也不多而且已经给客户出过了报告,似乎不是很重要。领导也说实在不行就格掉吧。
    这时候的问题是:
    开机就进入救援模式,因为 fstab 挂载不上, 在救援模式注释掉挂载那行指令终于能开机了。然后挂载硬盘:

    mount: unknown filesystem type 'null'
    

    查看磁盘uuid ll /dev/disk/by-uuid/ 磁盘已经没有uuid了。
    但是fdisk -l 可以看到 100T磁盘就在那里。
    死马当活马医吧,因为磁盘并没有坏,数据都在,我就想测试一下修复磁盘命令 nohup fsck.ext4 -y /dev/sda & 跑了一夜,第二天挂载竟然成功了!!!
    差点就判了死刑。。。。我的个小心心啊

    前两天硬盘坏了一块,换上新硬盘之后查看rebuild 进度:
    首先先查看硬盘信息:MegaCli64 -PDList -aAll| grep -Ei "(Enclosure Device|Slot Number|Raw Size|Firmware state)"
    打印信息如下:

    Enclosure Device ID: 8
    Slot Number: 0
    Raw Size: 894.252 GB [0x6fc81ab0 Sectors]
    Firmware state: Online, Spun Up
    Enclosure Device ID: 8
    Slot Number: 1
    Raw Size: 9.095 TB [0x48c400000 Sectors]
    Firmware state: Online, Spun Up
    Enclosure Device ID: 8
    Slot Number: 2
    Raw Size: 9.095 TB [0x48c400000 Sectors]
    Firmware state: Online, Spun Up
    Enclosure Device ID: 8
    Slot Number: 3
    Raw Size: 9.095 TB [0x48c400000 Sectors]
    Firmware state: Online, Spun Up
    Enclosure Device ID: 8
    Slot Number: 4
    Raw Size: 9.095 TB [0x48c400000 Sectors]
    Firmware state: Online, Spun Up
    Enclosure Device ID: 8
    Slot Number: 5
    Raw Size: 9.095 TB [0x48c400000 Sectors]
    Firmware state: Online, Spun Up
    Enclosure Device ID: 8
    Slot Number: 6
    Raw Size: 9.095 TB [0x48c400000 Sectors]
    Firmware state: Rebuild
    Enclosure Device ID: 8
    Slot Number: 7
    Raw Size: 9.095 TB [0x48c400000 Sectors]
    Firmware state: Online, Spun Up
    Enclosure Device ID: 8
    Slot Number: 8
    Raw Size: 9.095 TB [0x48c400000 Sectors]
    Firmware state: Online, Spun Up
    Enclosure Device ID: 8
    Slot Number: 9
    Raw Size: 9.095 TB [0x48c400000 Sectors]
    Firmware state: Online, Spun Up
    Enclosure Device ID: 8
    Slot Number: 10
    Raw Size: 9.095 TB [0x48c400000 Sectors]
    Firmware state: Online, Spun Up
    Enclosure Device ID: 8
    Slot Number: 11
    Raw Size: 9.095 TB [0x48c400000 Sectors]
    Firmware state: Online, Spun Up
    

    这里主要注意的是 Enclosure Device IDSlot Number ,然后查看重建进度:

    [root@head-zk ~]# MegaCli64 -PDRbld -showprog -physDrv [8:6] -a0
                                         
    Rebuild Progress on Device at Enclosure 8, Slot 6 Completed 0% in 616 Minutes.
    
    Exit Code: 0x00
    

    注意上面命令里面的 [8:6][<Enclosure Device ID>:<Slot Number>]

    用文本进度条方式查看:

    MegaCli64 -pdrbld -progdsply -physdrv[8:6] -aALL
    
          Rebuild progress of physical drives...
    
      Enclosure:Slot               Percent Complete                       Time Elps
           008 :06     ***********************00 %*********************** 01:56:21
    
        Press <ESC> key to quit...   
    

    相关文章

      网友评论

          本文标题:2019-01-26 MegaRAID 无缘无故大面积掉盘修复

          本文链接:https://www.haomeiwen.com/subject/khobjqtx.html