美文网首页
如何看待一起故障

如何看待一起故障

作者: 家贝 | 来源:发表于2015-03-17 09:32 被阅读19次

    记得一个月前的普通的中午,我正在享受午餐的时候,一个电话打来,说xx系统和集团公司断连了,我内心纠结了一下,扔下手中的刀叉,赶到了qjl四楼。

    我到的时候,yj已经在现场了,还有一个工程师,大伙都在紧锣密鼓的抢修故障。

    这个时候,我脑子里蹦出一个思路:

    1、硬件小组在哪里?it人员在哪里?还得派it人员到机房现场看下有无硬件损坏,比如硬盘,电源,风扇等。

    2、ip小组在哪里?得有人看下网络路由通不通,哪一个地方通道不通?

    3、bell厂家在哪里?在现场了,有没有联系远程的后台backup,本地能否启下process或者初步分析下原因。

    想到这,我逐一拨通了it,ip人员电话,大家响应很及时,一个往机房赶去,一个来我这里。

    时间一分一秒的过去,故障有时处理好,过一会又说还不行,真让人着急。15分钟就这么过去了,时间仿佛静止了一般。

    这时候,ip天才sq出现了,他风急火燎得打开电脑,娴熟的用crt连接上设备,ping发现xx路段不通,立刻告知我们,我们纳闷,这是什么情况,不是说yy的吗?

    同时,it男也赶到了机房,他迅速检查了现场硬件,并没有发现任何问题,一切正常。

    怎么办?我们请示领导,能否切换到备用平面,领导同意,ip天才立马启动了备用平面切换,业务恢复了!

    有惊无险,故障在一个小时内解决了,如果超出两个小时,后果不堪设想。那么,到底是什么原因导致本次故障的呢?

    过了一天,大伙就埋头分析原因,撰写报告了,整个报告的编写花费了五天时间,可是我们天才的同事们怎么想,怎么说,都无法解释当时出现的现象,报告写到一半就戛然而止,我们也只能给上级领导提交阶段性总结报告。

    可是我们不甘心,我们一定要查的水落石出,昨天晚上,我们的天才们在深夜再一次模拟了当天的故障情况,在检查路由的时候,终于发现防火墙在NAT转换的时候,出现了不该有的错误,经过现场数据修改,路由通了,故障原因也终于查明,好样的。

    从这起故障中,我看到了大伙不屈不挠的精神,打破砂锅问到底的韧性,正因为有了他们的天赋和勤奋,yd的网络才能继续提升,为客户提供更加优质的服务,谢谢你们!

    相关文章

      网友评论

          本文标题:如何看待一起故障

          本文链接:https://www.haomeiwen.com/subject/jdvixttx.html