周二17号,赵宇去雍和宫那边把两块离线的磁盘做了强制上线处理,上线后raid卡自动后台初始化
周三一早客户又报修,又是两块盘,每次都盘都不一样,判断这次掉线是因为初始化过程中出了问题,赵宇让用户自己操作进行了强制上线的动作,上线后没两小时就又不行了,这次是工作时间,上线后就有人使用了,本来初始化这个动作就让盘阵脆弱,这时候由用户访问就更危险了。
下午的思路是把机器拉回来,做一台够容量的机器给他们先用,我们把数据复制过去,我们用这台故障机器进行问题分析。
现在是中午,后面那个7盘的阵列已经开始复制数据了,赵宇跟晓东在那里琢琢磨磨的把数据拷上了,真不错。24盘的阵列也没事,昨晚他们看了数据没问题,现在还在初始化,其实这个初始化就是做数据检查,还要十五个小时,明天早晨就能好,现在看,如果一切顺利,明早7盘阵列可以拷完数据,24盘阵可以开始拷数据,周一可以给用户送去。
在昨天下午安排的时候我还有些地方不是完全清晰,但就那么往下走就对了,方向和思路基本是对的,也尽力去把计划做扎实,不清楚的地方在前行的时候探索。
折腾了几天,数据拷完了,学会了大容量数据的复制,速度基本能达到180MB/s,是将nas的两个卷的数据通过Windows搭的平台为中转,拷过去的。
给他们提供一台设备过去,慢慢用着,我们加紧研究日志,分析几个层面的数据第一是raid卡的日志,第二是操作系统的日志,第三是在系统下看磁盘的日志。
今天周二,中午做了raid6扩容的测试,本来觉得扩容会像rebuild或者初始化那样的处理速度,用6块250G的ssd做了raid6,放了450G数据,然后加了两块250Gssd做扩容盘,操作完后显示需要时间是67分钟,带着赵宇晓东做了一个计算,算完就是1小时左右时间。接着就让赵宇算用15块4T的SATA盘加一块盘做扩容需要的时间,赵宇算完是3-4天,听到这个数据就觉得赵宇算错了,因为以前23块8T盘做初始化或rebuild才是24小时,接着就退出了错误的原因,原来赵宇是按照我们计算ssd的速度的方式算的SATA,一算发现算的是单盘的写速度,可整体阵列应该是单盘速度乘以数量的,所以算完应该是7小时,但按这个算法ssd那个就错了,因为算下来ssd需要12分钟。到底哪里错了?
想是没想通,后来上网查了资料发现,raid扩容其实是在做全阵列的数据迁移,由于需要用两套算法确认原始数据和校验数据,所以第一计算开销大,第二迁移写盘需要时间,整体来看可远远不是想rebuild那样,全盘同时读,新盘一块盘写一遍那么简单,所以耗时就不是一个量级的,最后验证了ssd的那个迁移后数据没问题,可是SATA阵列经不起这个时间折腾,所以最后决定不扩容,而是增加两块盘做个raid1,加进nas。
今天赵宇处理完nas的空间后,基本上明天就可以送机器了,让人家用上可用的机器,我们抓紧分析问题解决问题。
网友评论