SRE(Site Reliability Engineering)即网站可靠性工程
https://zhuanlan.zhihu.com/p/94254103
主要职责:
- 基础设施容量规划
- 生产系统的监控
- 生产系统负载均衡
- 发布与变更工程管理
- On-call(轮值)
- Firefighting(紧急故障救火)
笔者认为业务团队SRE的核心是:以软件工程的方法论重新定义研发运维,驱动并赋能业务演进。
SRE 做什么
1 性能和容量
- 基础组件升级
- 性能优化
2 全链路稳定性治理
- 数据库稳定性
- 监控预警与故障的发现
- 故障诊断 1分钟发现问题,5分钟定位问题,10分钟恢复问题
- 全链路SLQ, 对于终端用户,保证TP999可用性
- 资源一致性治理
一般来说大厂的 SRE 比较靠谱,当性能成为瓶颈的时候 SRE 才有意义
网友评论