刚搞定一件事,看着窗外的阳光,我的心情也变得非常愉悦。然而,愉悦没有超过五分钟,一条信息又让我如同掉入冰窖。
信息很短,但是消息越短事越大。小王发来一条信息,只有一行,讲得事情,确认我心惊肉跳。小王在信息里说所有设备都掉线了。
设备掉线很正常,以往也遇到过。掉线对于电子设备来说,再正常不过。不管再好的工艺,野外环境下,总有意想不到的情况。问题的关键在于一个字,小王说的是“都”。每个设备安装的地点不同,条件不一样,怎么可能全部都掉线,我觉得有点不可思议。先是怀疑安装时没有开机,再回忆一下安装流程,马上否定这个原因。安装时,都要开机,人为制造异常,等机器传回信息后,才算安装成功。除了没开机,还能有什么原因,人为破坏更不可能,那么多设备安装之后,还没有发生过人为破坏的情况。会不会是电量不足,导致自动关机离线。
登录系统后,电量不足的原因马上被排除,系统信息让我更是困惑。系统里显示所有设备掉线前的最后一次报文,电量都是百分之九十九或者百分之百,电量肯定都没问题。更让我匪夷所思的是掉线时间,几乎所有设备都是在同一时间掉线,甚至有几台时间分秒不差。掉线如此同步,不可能是人为破坏,设备安装很分散,近的相距几百米,远的相距几公里,人为破坏绝对做不到同步。
排除掉各种原因,我思来想去,唯一的原因是设备自身的程序。历史上曾经有过千年虫这样的病毒,很有可能是设备自身程序bug导致同时关机,因为每一台设备运行的程序,除了编号不同,其他全部都一样,只有程序问题,才能导致设备同时离线。
几番沟通下来,经过数人反复讨论,最终的原因,我只猜对了一半。
原因是在程序上,但不是出在设备程序上,而是系统平台。进入三月份以来,系统平台增加了一个新的机制,以减少设备乱报次数。新的机制下,只要每套设备平均掉线两次以上,系统会直接将全部设备直接判定为离线,屏蔽掉设备所有的信息。实话实说,新机制完全是一刀切,根本没有考虑现场实际情况。现场的环境千变万化,一套设备里面,难免有一两个通信条件不好,每天无法成功传输信息,一台这样的设备就能制造几十甚至上百条掉线,然后平摊到一整套设备上去,很有可能整套设备掉线次数超过两次。然后系统就屏蔽整套设备,真可谓是“宁可错杀一千,不能放过一个。”带来的问题就是整改工作量太大。
找到问题所在,总需要去解决。全部到现场去换,肯定代价很大。而且有些设备,即便是到了现场,也没解决办法,通信条件差,电信部门不可能为这台设备单独去架设基站。想要解决问题,只能找平台维护人员解决。
人年纪大了,总会成熟一些。沟通时,我一改以往怒目相向、据理力争的习惯,而是慢条斯理、抽丝剥茧地逐条逐条分析,最后终于说动系统维护人员,先解锁全部设备,让我观察,找到爱掉线的设备,采取针对性的措施来解决。
终于找到解决故障的正确方法,以后遇事还是不要慌,先分析原因,再找方法很关键。
网友评论