美文网首页
SRE 相关

SRE 相关

作者: BitInterfc | 来源:发表于2021-01-12 15:37 被阅读0次

SRE(Site Reliability Engineering)即网站可靠性工程
https://zhuanlan.zhihu.com/p/94254103

主要职责:

  • 基础设施容量规划
  • 生产系统的监控
  • 生产系统负载均衡
  • 发布与变更工程管理
  • On-call(轮值)
  • Firefighting(紧急故障救火)

笔者认为业务团队SRE的核心是:以软件工程的方法论重新定义研发运维,驱动并赋能业务演进。

SRE 做什么

1 性能和容量

  • 基础组件升级
  • 性能优化

2 全链路稳定性治理

  • 数据库稳定性
  • 监控预警与故障的发现
  • 故障诊断 1分钟发现问题,5分钟定位问题,10分钟恢复问题
  • 全链路SLQ, 对于终端用户,保证TP999可用性
  • 资源一致性治理

一般来说大厂的 SRE 比较靠谱,当性能成为瓶颈的时候 SRE 才有意义

相关文章

网友评论

      本文标题:SRE 相关

      本文链接:https://www.haomeiwen.com/subject/zcfeaktx.html