美文网首页
事故报告撰写(参考《SRE Google 运维解密》)

事故报告撰写(参考《SRE Google 运维解密》)

作者: 言十年 | 来源:发表于2017-08-22 09:16 被阅读210次
图片摘自网络

事故报告撰写

一篇事故总结是一次事故的书面记录,包括该事故造成的影响,为缓解该事故采取的措施,事故的根本原因,以及防止未来问题重现的后续任务。

事故总结的条件

  • 用户可见的宕机时间或者服务质量降级程度到达一定标准。
  • 任何类型的数据丢失。
  • on-call 工程师需要人工介入的事故(包括回滚,切换用户流量等)
  • 问题解决耗时超过一定限制
  • 监控问题(预示着问题是由人工发现的,而非报警系统)

事故报告对事不对人,是为了提出服务如何如何能够获得进步。避免职责,提供建设性意见。

协作和知识共享

事故报告使用公司的模板。

评审条件如下几项:

  • 关键的灾难数据是否已经被收集并保存起来了?
  • 本次事故的影响评估是否完整?
  • 造成事故的根源问题是否足够深入?
  • 文档中记录的任务优先级是否合理,能否及时解决了根源问题?
  • 这次事故处理的过程是否共享给了所有相关部门?

所有的事故总结都需要评审。未经评审的事后总结还不如不写。事故报告写完要举行评审会议。会议上注意着重着重解决目前文档中的疑问和评论,收集相关的想法,将文档完成。

以上内容编抄自《SRE Google 运维解密》第十五章 事后总结:从失败中学习。省略了一些内容。喜欢的可买书看。

我们是怎么做的

书中附录D是总结示范(模板)。我们模板大致类似。分为如下几项:

1.参与开发人员
2.影响时间和范围
3.问题现象及处理步骤
4.根本原因的分析和定位
5.后续任务

也就是要明确责任人,记录事故发生及其处理恢复的时间。问题现象(运维监控图或者程序bug)及处理步骤的记录,回顾起来也能帮你优化你的处理方式。最重要的是原因的分析和定位。这个才是有参考价值的。让你成长也避免下次再犯。后续任务就是根据业务做些优化或者组内学习或者其他有促进的学习或改善的事情。

相关文章

  • 事故报告撰写(参考《SRE Google 运维解密》)

    事故报告撰写 一篇事故总结是一次事故的书面记录,包括该事故造成的影响,为缓解该事故采取的措施,事故的根本原因,以及...

  • SRE Google运维解密 阅读与摘录

    SRE Google运维解密 阅读与摘录 第一部分概览 序言 SRE Site Reliability Engin...

  • 闲话IT运维---学习Google SRE不易

    最近Google SRE很火,我们内部给每个人都配了一本《SRE Google运维解密》,希望大家能熟读,从中能取...

  • 进击的运维 —— SRE

    《SRE: Google 运维解密》(1-6章)—— 读书笔记 这几天到杭州出差,带了这本运维领域的经典有空的时候...

  • 错误预算上线机制

    在读《SRE - Google运维解密》的时候看到Google提出的错误预算上线机制,觉得不错,在这里细化一下,如...

  • 读《SRE Google运维解密》

    这本书是笔者基本上一字一字看的,因为相对于工作现状,与书中的思想产生了共鸣。在生产实践中遇到的一些问题,书里面...

  • SRE Google 运维视角--笔记

    最近看了一本书《SRE google运维解密》,由自己所在团队使命出发,来看这本书确实能够获得不少共鸣。SRE(s...

  • 运维好文网址收集

    《SRE Google运维实践》 https://jdsre.gitbook.io/sre2/?from=time...

  • google SRE 笔记

    SRE:Google运维解密 >> 有统计显示,一个软件系统的40%~90% 的花销其实是花在开发建设完成之后不断...

  • 初始Prometheus

    监控的目标 在《SRE: Google运维解密》一书中指出,监控系统需要能够有效的支持白盒监控和黑盒监控。通过白盒...

网友评论

      本文标题:事故报告撰写(参考《SRE Google 运维解密》)

      本文链接:https://www.haomeiwen.com/subject/kjukdxtx.html