一次工作日记续

作者: 苏智随笔 | 来源:发表于2021-05-28 23:44 被阅读0次

一次工作日记续
2018-05-27断了的弦该这么连
开心注册简书！重新写日记
平时写日记的习惯
晨间日记的秘密
高管成长日记（1）
续日记
日记（续）
日记·续
找工作（续）

周二17号，赵宇去雍和宫那边把两块离线的磁盘做了强制上线处理，上线后raid卡自动后台初始化

周三一早客户又报修，又是两块盘，每次都盘都不一样，判断这次掉线是因为初始化过程中出了问题，赵宇让用户自己操作进行了强制上线的动作，上线后没两小时就又不行了，这次是工作时间，上线后就有人使用了，本来初始化这个动作就让盘阵脆弱，这时候由用户访问就更危险了。

下午的思路是把机器拉回来，做一台够容量的机器给他们先用，我们把数据复制过去，我们用这台故障机器进行问题分析。

现在是中午，后面那个7盘的阵列已经开始复制数据了，赵宇跟晓东在那里琢琢磨磨的把数据拷上了，真不错。24盘的阵列也没事，昨晚他们看了数据没问题，现在还在初始化，其实这个初始化就是做数据检查，还要十五个小时，明天早晨就能好，现在看，如果一切顺利，明早7盘阵列可以拷完数据，24盘阵可以开始拷数据，周一可以给用户送去。

在昨天下午安排的时候我还有些地方不是完全清晰，但就那么往下走就对了，方向和思路基本是对的，也尽力去把计划做扎实，不清楚的地方在前行的时候探索。

折腾了几天，数据拷完了，学会了大容量数据的复制，速度基本能达到180MB/s，是将nas的两个卷的数据通过Windows搭的平台为中转，拷过去的。

给他们提供一台设备过去，慢慢用着，我们加紧研究日志，分析几个层面的数据第一是raid卡的日志，第二是操作系统的日志，第三是在系统下看磁盘的日志。

今天周二，中午做了raid6扩容的测试，本来觉得扩容会像rebuild或者初始化那样的处理速度，用6块250G的ssd做了raid6，放了450G数据，然后加了两块250Gssd做扩容盘，操作完后显示需要时间是67分钟，带着赵宇晓东做了一个计算，算完就是1小时左右时间。接着就让赵宇算用15块4T的SATA盘加一块盘做扩容需要的时间，赵宇算完是3-4天，听到这个数据就觉得赵宇算错了，因为以前23块8T盘做初始化或rebuild才是24小时，接着就退出了错误的原因，原来赵宇是按照我们计算ssd的速度的方式算的SATA，一算发现算的是单盘的写速度，可整体阵列应该是单盘速度乘以数量的，所以算完应该是7小时，但按这个算法ssd那个就错了，因为算下来ssd需要12分钟。到底哪里错了？

想是没想通，后来上网查了资料发现，raid扩容其实是在做全阵列的数据迁移，由于需要用两套算法确认原始数据和校验数据，所以第一计算开销大，第二迁移写盘需要时间，整体来看可远远不是想rebuild那样，全盘同时读，新盘一块盘写一遍那么简单，所以耗时就不是一个量级的，最后验证了ssd的那个迁移后数据没问题，可是SATA阵列经不起这个时间折腾，所以最后决定不扩容，而是增加两块盘做个raid1，加进nas。

今天赵宇处理完nas的空间后，基本上明天就可以送机器了，让人家用上可用的机器，我们抓紧分析问题解决问题。