美文网首页
SRE Google运维解密读书笔记之事后总结

SRE Google运维解密读书笔记之事后总结

作者: Myfei痴痴 | 来源:发表于2020-04-13 16:46 被阅读0次

15章 事后总结:从失败中学习

事后总结包括该事故所造成的影响,为缓解该事故的措施、事故的根本原因,以及防止未来问题重现的后续任务。

需要书写事后总结的标准:
1.永不可见的宕机时间或者服务质量降级程度达到一定标准
2 任何类型数据丢失
3.on-cal工程师需要人工介入的事故
4.问题解决耗时超过一定限制
5.监控问题(预示着问题由工程师发现,而非报警系统)

原则:对事不对人,不抱怨,不指责。
最佳实践:避免指责,提供建设性意见。


协作和知识共享:
事后总结工作流程的每一步都包括团队协作和知识共享。

优先选择以下功能:
1.实时协作。---使写作过程可以很快收集数据和想法。
2.开放评论系统-使大家可以参与进来,提供解决方案,以及提高事故细节覆盖程度
3.邮件通知--可以在文档中给其他用户发消息,或者引入其他人来共同填写文档。

内部发布->正式评审->发布
1.关键的灾难数据是否已经被收集并保存起来了?
2.本次事故的影响评估是否完整?
3.造成事故的根源是否足够深入

  1. 文档中记录的任务优先级是否合理,能否及时解决根源问题。
    5.这次事故处理的过程是否共享给所有部门。
    最佳实践:所有的时候总结都需要评审。

建立事后总结文化:
Google通过高级管理层的主动参与协作和评审环节来不断加强内部事后总结文化,但是有工程师自主驱动,效果会更好。

组织活动形式:
1.本月最佳事后总结。--每周新闻邮件
2.google 事后总结小组--本小组共享与内部和外部事后总结。
3.事后总结阅读俱乐部。
4.命运之轮。--刚加入的sre需要参加,角色扮演。

面对投入与产出质疑,可采用策略:
1.逐渐引入。
2.确保对有效的书面总结提供奖励和庆祝。
3.鼓励公司高级管理层认可和参与其中。
最佳实践:公开奖励做正确事的人。
最佳实践:收集关于事后总结有效性的反馈。

事故总结小组:---对事不对人。
协调内部各种部门的事后总结流程.建立事故总结模板,用流程管理工具自动化数据收集,以及自动化元数据收集一般进行趋势分析。
将最佳实践共享给不同产品部门。

相关文章

  • 进击的运维 —— SRE

    《SRE: Google 运维解密》(1-6章)—— 读书笔记 这几天到杭州出差,带了这本运维领域的经典有空的时候...

  • SRE Google运维解密读书笔记之事后总结

    15章 事后总结:从失败中学习 事后总结包括该事故所造成的影响,为缓解该事故的措施、事故的根本原因,以及防止未来问...

  • SRE Google运维解密 阅读与摘录

    SRE Google运维解密 阅读与摘录 第一部分概览 序言 SRE Site Reliability Engin...

  • 闲话IT运维---学习Google SRE不易

    最近Google SRE很火,我们内部给每个人都配了一本《SRE Google运维解密》,希望大家能熟读,从中能取...

  • 错误预算上线机制

    在读《SRE - Google运维解密》的时候看到Google提出的错误预算上线机制,觉得不错,在这里细化一下,如...

  • 读《SRE Google运维解密》

    这本书是笔者基本上一字一字看的,因为相对于工作现状,与书中的思想产生了共鸣。在生产实践中遇到的一些问题,书里面...

  • SRE Google 运维视角--笔记

    最近看了一本书《SRE google运维解密》,由自己所在团队使命出发,来看这本书确实能够获得不少共鸣。SRE(s...

  • 运维好文网址收集

    《SRE Google运维实践》 https://jdsre.gitbook.io/sre2/?from=time...

  • google SRE 笔记

    SRE:Google运维解密 >> 有统计显示,一个软件系统的40%~90% 的花销其实是花在开发建设完成之后不断...

  • [读书笔记]《SRE:Google运维解密》(一)

    晚上在健身房跑完步回来,洗了个热水澡,闲着没事,翻了下《SRE:Google运维解密》这本书,由于有看完第二天基本...

网友评论

      本文标题:SRE Google运维解密读书笔记之事后总结

      本文链接:https://www.haomeiwen.com/subject/ttrnmhtx.html