上周出差去处理现场设备的问题。长期在在二线负责开放,首次到第一线去维护设备,直接面对客户。碰了不少困难,也遇到一些险情,我觉得主要原因是直接对象由产品变为业主了,考虑问题的视角没有从研发思维转变为业主思维。
快速恢复vs保留现场,从减少影响的角度,到现场后,业主要求马上启动备用设备恢复系统运行,优先解决眼前的问题。但是从研发故障定位的角度,倾向于优先在故障状态下收集信息,识别故障点,分析原因,解决根本问题。
现场试验vs调试试验,业主为了降低系统运行的风险,现场不允许挂接疑似故障设备进行试验,现场维修方式主要是简单粗暴的更换大组件,同时现场外部试验条件受限,需要等待很长一段时间才可能有类似的故障工况出现进行验证。的日志记录出了问题,用于分析信息量少。其中合作伙伴在没有知会业主的情况下进行了程序变更,目的是为了优化散热问题,结果引入一个本地控制问题,业主对此表示很不满。
现场处理原则:一是信息收集要求全面可靠,时间上全天后记录能力,空间上系统中各主要设备均要求记录 可以相互印证。内容上覆盖所有主要定位信息,无死角。二是试验测试上,公司需要有匹配现场的试验条件,用于故障的复现与调试试验。现场的主要做简单的单体测试。原则上经过公司内与现场互补测试后,才能上系统,底线能够在故障时,自动退出,能回退软硬件版本。现场不是调试常,任何变动都不能随意,需要经过充分测试,影响设备运行后果很严重。
网友评论