读《SRE Google运维解密》

读《SRE Google运维解密》

作者: 刘小白DOER | 来源:发表于2022-01-03 18:44 被阅读0次

读《SRE Google运维解密》
SRE Google运维解密阅读与摘录
闲话IT运维---学习Google SRE不易
进击的运维 —— SRE
错误预算上线机制
SRE Google 运维视角--笔记
运维好文网址收集
google SRE 笔记
初始Prometheus
运维界最远的距离，不是上线到宕机，而是我做系统管理员，你却到谷歌

这本书是笔者基本上一字一字看的，因为相对于工作现状，与书中的思想产生了共鸣。在生产实践中遇到的一些问题，书里面都给了一些解答，透露着比较优秀的理念。

现在笔者使用xmind思维导图来阅读这本书。

1、SRE介绍

四个方法论也给SRE指明一条可行的方法。手工操作和工单处理等传统运维工作不应该占用非常多的时间。运维SRE与开发团队认同50%的安全线的重要性，暂时性措施将过多的运维压力转移回开发团队，预留时间关注到开发工作上，改进流程或者报警等工作。

2、SRE视角

3、拥抱风险

共同定义一个基于SLO的错误预算，提供明确、客观的指标来决定服务能接受多少不可靠性。

4、服务质量目标

制订针对用户的服务质量目标，并且努力去达到这个质量目标。

5、减少琐事

50%的时间应该花在工程项目上，以减少未来的琐事和增加服务上。

6、分布式系统的监控

健康的监控和报警系统应该是非常简单、易于理解的。四个黄金指标是：延迟、流量、错误、饱和度。

7、自动化系统演进

以软件为基础的自动化是优于手动操作的，自动化的价值体现在一致性、快速性、可靠性。

8、发布工程

采用合适的工具、合理的自动化方式，以及合理的政策来发布。

9、简单化

在系统的灵活性和稳定性上维持平衡，软件的简单性是可靠性的前提。

10、基于时间序列进行有效报警

将测试和报警模型变成海量信息收集和中央化规则计算、统一分析和报警的模型。

11、on-call轮值

强调工程化手段来应对运维问题。

12、有效的故障排查手段

故障排查需要两个条件：通用的故障排查过程和发生故障的系统的足够了解。

13、紧急事件响应

平时不断的实践训练，建立和维护一套完备的训练和演习流程。

14、紧急事故管理

有效的紧急事故管理是控事故影响和迅速恢复运营的关键因素。

15、事后总结

事后总结是一次事故的书面记录，包括事故造成的影响，为缓解事故采取的措施，事故的根本原因，防止未来问题重现的后续任务。

16、跟踪故障

提高可靠性的唯一方法是建立一个基线，不断跟踪改变。收集监控系统发出的报警信息，同时提供标记、分组和数据分析功能。

17、测试可靠性

完善的测试可以提供足够的细节信息，帮助我们有效的预测某个系统未来的可靠度。

18、软件工程实践

团队大小不应该与用户服务规模成比例增长，以线性增长需要不断的进行自动化工具的研发，不同的优化工具、流程，消除一切其他运维工作相关的效率问题。

19、前端服务器的负载均衡

使用DNS和VIP进行负载均衡。

20、数据中心内部的负载均衡

21、应对过载

应对过载的一个选项就是服务降级，系统能够优雅的处理过载情况。

22、处理连锁故障

连续故障的测试：测试直到出现故障还要继续测试。

23、分布式来提高可靠性

24、分布式周期性任务系统

为提升cron的可靠性，将实际进程与物理机分开。

25、数据处理流水线

26、数据完整性-读写一致

数据完整性是手段，数据可用性是目标。

27、可靠的进行产品的大规模发布

28、迅速培养SRE加入on-call

系统性、累积性的学习方式，SRE应该积极主动的办法减少和限制被动性工作的产生。

29、处理中断性任务

为了限制干扰数量，应该减少上下文切换（工作类型、环境等改变）。

30、从运维过载中恢复

减少花在改进服务上的时间，服务的可扩展性和可靠性随之变差。

31、与其他团队的沟通协作

做任何高价值的事情都需要很多人协作。

32、参与模式的演进历程

SRE参与的时机越早，该服务的质量提升越快，最终质量也越好。

33、其他行业实践经验

在高可靠性的预期和快速变更与创新的追求之间寻求平衡。

34、结语

两种同等重要的工作：轮值工作，动手完成运维系统，观察和调整系统的弱点，理解如何能大规模扩展这些系统。另外需要时间反思与决策如何才能让这些系统更容易管理。

相关文章

读《SRE Google运维解密》
这本书是笔者基本上一字一字看的，因为相对于工作现状，与书中的思想产生了共鸣。在生产实践中遇到的一些问题，书里面...
SRE Google运维解密阅读与摘录
SRE Google运维解密阅读与摘录第一部分概览序言 SRE Site Reliability Engin...
闲话IT运维---学习Google SRE不易
最近Google SRE很火，我们内部给每个人都配了一本《SRE Google运维解密》，希望大家能熟读，从中能取...
进击的运维 —— SRE
《SRE: Google 运维解密》（1-6章）—— 读书笔记这几天到杭州出差，带了这本运维领域的经典有空的时候...
错误预算上线机制
在读《SRE - Google运维解密》的时候看到Google提出的错误预算上线机制，觉得不错，在这里细化一下，如...
SRE Google 运维视角--笔记
最近看了一本书《SRE google运维解密》，由自己所在团队使命出发，来看这本书确实能够获得不少共鸣。SRE（s...
运维好文网址收集
《SRE Google运维实践》 https://jdsre.gitbook.io/sre2/?from=time...
google SRE 笔记
SRE：Google运维解密 >> 有统计显示，一个软件系统的40%～90% 的花销其实是花在开发建设完成之后不断...
初始Prometheus
监控的目标在《SRE: Google运维解密》一书中指出，监控系统需要能够有效的支持白盒监控和黑盒监控。通过白盒...
运维界最远的距离，不是上线到宕机，而是我做系统管理员，你却到谷歌
最近萧帮主携几位基友到谷歌参观SRE，又正值孙宇聪同学译作《Google运维解密》出版，圈子里顿时铺天盖地的各种S...

网友评论

本文标题：读《SRE Google运维解密》

本文链接：https://www.haomeiwen.com/subject/uvzmfrtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|读《SRE Google运维解密》|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！