故障会议分析总结

作者: 小熊杂议 | 来源:发表于2017-06-26 23:36 被阅读14次

故障会议分析总结
2021。 1.12
PPT制作
汽车故障码的分析方法
5.27店里会议分类及开会的作用
长治西收费站机电设备常见故障的排除（更新）
手机维修之音频电路
电脑开机提示FWVCX is compressed丢失黑屏无法启
故障分析
Linux应用性能分析及故障排查

这里并不是想说关于这次会议得到的结论是什么的，问题是如何解决的，而是从更高一个层次来看待这次会议。

一开始看这个会议，各方的诉求其实是明确的：客户想要对问题的答复，以向领导、子公司领导一个交代，有交代就行；运维、开发想要在给出交代的同时，把责任给撇清楚；数据库维护事不关己高高挂起。

客户的这种对事态度，说到底还是对领导负责，而不是对事情负责。但是他的应对方法却几乎无可挑剔，值得学习。

6月13日客户端无法登录的问题，整个事故的原因是因为MQ内存爆满，导致客户端登录时无法从MQ获取消息，导致客户端无法响应。运维一开始是说客户端无法登录是程序问题，绝口不提MQ内存爆掉的事实，否认MQ爆掉与客户端无法登录之间的联系。在开发揭露出MQ与客户端无法登录之间的联系之后，尝试通过两个可能的理由想要将责任推卸到开发的身上，但是又被开发以事实反驳。90万数据才占区区2.3G内存，28万数据怎么可能消耗完毕64G内存？

这些事实反应了运维：

1、对服务器知识不足，逻辑思维能力不强，几乎没有排查故障的能力，无法完成故障排查任务和服务器维稳任务。

2、对于对自己不利的真相，不会主动透露，不会去反馈，反而尽量去掩盖。

3、善于推卸责任，在真相被揭露的情况下，想要通过各种办法将责任推到他人身上；即使无法完全推到他人身上，也至少想要拉他人下水。

4、把别人的功劳当做自己的，例如解决故障时提到“我们”，不了解情况的人咋一听好像是运维解决的。

以上是运维的固有特征，在实际工作中需要提防这一点。

客户认为，1、开发需要优化程序；2、运维在一个小时之后才发现真相，反映了运维的故障排查能力问题和应急反应能力问题；3、运维至今无法排查出为何内存会爆掉，反映了运维的故障排查能力问题。这三点，虽然认定责任大部分存在于运维，但是对运维本质上的推卸责任、隐瞒真相的本质仍然未点破。并不清楚客户是否认识到运维的本质。所以，如果不加以任何应对措施，这类事故仍然会持续发生到开发头上。

这类事故也提示了我：

1、一个事故，并非全部是一个因素、一个部门所造成的，而是可能由多个因素、多个部门共同所造成的。因而追查事故时，必须理清相关来龙去脉，对事故发生的整个过程进行正确、客观梳理，过程的每个环节的决定性因素在何处，每个环节的责任人是否有应对，是否及时应对，是否玩忽职守；当事故发生时是否有紧急预案可以启动。

2、看清楚合作部门、合作伙伴的对事态度，根据其地位、态度决定方针，如果合作伙伴的地位与自身一致，且对事态度较为懈怠，发生事故时应毫不留情地指出事实，以维护自身利益，绝不姑息。

6月16日程序包被删的问题，也反映了运维同样的问题，暂且不表。

网友评论

本文标题：故障会议分析总结

本文链接：https://www.haomeiwen.com/subject/pscscxtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

故障会议分析总结

相关文章