《运维体系管理课-赵成》故障管理

《运维体系管理课-赵成》故障管理

作者: cdz620 | 来源:发表于2020-03-08 23:46 被阅读0次

《运维体系管理课-赵成》故障管理
《运维体系管理课-赵成》应用运维体系建设
《运维体系管理课-赵成》云计算时代运维实践
广通软件最佳实践：“互联网+”时代下的石油石化行业运维管理解决方
美丽联合集团赵成：要让员工看到自己的未来
2018-08-14
运维管理基本结构
IT运维监控体系建设之我所见
Python 运维开发99速成
赵成《进化》| 揭秘Netflix：顶级公司Netflix运维的

27故障管理：对故障的理解

系统正常，只是该系统无数异常情况下的一种特例
Design for Failure 理念：我们的目标和注意力不应该放在消除故障，或者不允许故障发生上，因为我们无法杜绝故障。所以，我们更应该考虑的是，怎么让系统更健壮，在一般问题面前，仍然可以岿然不动，甚至是出现了故障，也能够让业务更快恢复起来。

故障永远只是表面现象，其背后技术和管理上的问题才是根因

技术和管理上的问题，积累到一定量通过故障的形式爆发出来，所以故障是现象，是在给我们严重提醒
理解一个系统应该如何工作并不能使人成为专家，只能靠调查系统为何不能正常工作才行
作为管理者，需要时常问自己：下次出现类似问题，怎么才能更快地发现问题，更快地恢复业务？即使这一次的故障应对已经做得非常好了，下次是否可以有更进一步的改进？

反省

出问题，管理者要先自我反省
强调技术解决问题，而不是单纯地靠增加流程和检查环节来解决问题，技术手段暂时无法满足的，可以靠管理手段来辅助
必须尽快将人为动作转化到技术平台中去。（随着系统复杂度越来越高，迟早有一天会超出单纯人力的认知范围和掌控能力，各种人力的管理成本也会随之上升）

28故障定级和定责

故障的定级标准

相关参与人员：技术支持团队，HRBP，人力
制定标准相关相关要素：
- 等级 p1~p5
- 业务线：不同的业务线有不同的业务定级标准
- 参考指标：影响时间，交易量，
制度：技术支持团队与业务研发团队，细分标准；按需修订与完善

故障定责的标准

定责主要目的是判定责任方，避免扯皮推诿；正视问题严肃对待
定责判定维度（故障类型）：变更执行，服务依赖，第三方责任

39 故障管理：鼓励做事，而不是处罚

关于定责和处罚

定责的过程，是找出根因，针对不足找出改进措施，落实责任人。定责的目的，是责任到人，并且责任人能够真真切切地认识到自己的不足之处，能够主导改进措施的落地。同时，也让整个团队认识到，我们对于故障的态度一定是严肃严格的
定责：对事不对人
处罚：对人不对事
- 对于有明确底线，坚决不允许触碰的规则，如果因不遵守规则，故意触犯，导致了严重故障的出现，这种情况是要处罚的。
- 高压线原则：
  - 未经发布系统，私自变更线上代码和配置；
  - 未经授权，私自在业务高峰期进行硬件和网络设备变更；
  - 未经严格的方案准备和评审，直接进行线上高危设备操作，如交换机、路由器防火墙等；
  - 未经授权，私自在生产环境进行调测性质的操作；
  - 未经授权，私自变更生产环境数据信息。

鼓励做事，而不是处罚错误

故障的发生、处理、复盘和改进有助于团队能力提升，对于故障要保持容忍度和耐心
- 发现不足
- 未来改进方向
- 团队和个人综合能力提升
- 技术依赖员工的创新和创造
- 员工积极性
作为管理者：
- 将规则和标准定义清楚，在执行时才能够做到公平公正
- 故障发生，要关注更全面的内容，关注人（状态，情绪），事情背景和前因后果

处罚的负作用

不能将定责与绩效强挂钩，会出现
- 团队互不信任
- 宁可少做，不愿多做多错，团队沟通成本上升，运作效率下降
更好的方式：专门系统记录，将评估放到一季度，半年，或一年表现中进行判断

30故障管理：故障应急和故障复盘

故障应急

业务恢复预案：
- 第一原则：优先恢复业务，而不是定位问题
- 业务应急预案：
  - 凡是没有演练过的预案，都是耍流氓：日常没演练过的，都没执行，应急情况下执行更容易出错，导致次级故障。
- 故障模拟类型：
  - IDC层面：ups切换，电力切换，交换机，路由器
  - 系统层面：cpu，io，disk
  - 应用层面：RT，499，5xx
有效组织协调；故障发生后关键事项：
- 故障通告
- 组织应急小组
- 恢复业务
- 信息汇报
总结：故障应急过程就是功夫要下在平时，注意建设各种工具和平台，同时要尽可能地考虑和模拟各种故障场景

故障复盘

复盘的目的是为了从故障中学习，找到我们技术和管理上的不足，然后不断改进
切忌将复盘过程和目的搞成追究责任或实施惩罚，这对于团队氛围和员工积极性的打击是非常大的
复盘过程：
- 召集复盘会议：准备要讨论的问题，邀请相关人员
- 组织复盘会议
- 故障简单回顾
- 故障处理时间线回顾：尽可能细
- 针对处理时间线讨论：对事不对人，针对性提问
- 确定故障根本原因：就事论事
- 故障定级与定责：依据规范定级与定责
- 发出故障报告：详细的故障信息，故障原因，后续改进措施，总结问题与建议。跟进后续的改进措施
定期总结故障案例：从更高层面分析故障，发现自身架构与业务层面的问题

相关文章

《运维体系管理课-赵成》故障管理
27故障管理：对故障的理解系统正常，只是该系统无数异常情况下的一种特例 Design for Failure 理...
《运维体系管理课-赵成》应用运维体系建设
1至3节微服务架构复杂度到了一定程度，已经远远超出单纯的开发和单纯的运维职责范畴，也远远超出了单纯人力的认知掌控...
《运维体系管理课-赵成》云计算时代运维实践
35以绝对优势立足：从CDN和云存储来聊聊云生态的崛起背景：随着业务体量的增长，对专业技术深度的要求就越来越高...
广通软件最佳实践：“互联网+”时代下的石油石化行业运维管理解决方
运维管理平台建设方案研究 “工欲善其事，必先利其器”，运维管理体系的落地需要一个强有力的运维管理平台的支撑。运维管...
美丽联合集团赵成：要让员工看到自己的未来
赵成是美丽联合集团技术服务经理，也是 TGO 鲲鹏会杭州分会会员，分会学习委员，极客时间 App《赵成的运维体系管...
2018-08-14
赵成赵老师的运维体系管理专栏已经订阅了很久，但是总是一直没有完整的去读，今天偶然去读了最后一篇，发现自己有一个很大...
运维管理基本结构
总体构成系统运维由资源管理、软件配置管理、监控管理、告警与故障定位管理、日志管理、安全管理、成本管理、巡检管理。...
IT运维监控体系建设之我所见
IT运维体系的架构中，IT运维监控是IT运维体系中重要的组成部分，作为运维的生命线，安全生产保障的生命线仍需强调。...
Python 运维开发99速成
原创2017-11-29史影、韩晓光高效运维作者简介：史影：应用运维负责人。擅长应用运维、运维开发、故障排...
赵成《进化》| 揭秘Netflix：顶级公司Netflix运维的
关于顶级公司Netflix 的运维揭秘，赵成老师在新书《进化：运维技术变革与实践探索》中有比较详细的分析。众所周...

网友评论

本文标题：《运维体系管理课-赵成》故障管理

本文链接：https://www.haomeiwen.com/subject/iswsdhtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|《运维体系管理课-赵成》故障管理|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！