(1)处理过程
1、确认故障,是否真的是故障、故障的表现是什么等。
2、分析故障影响,影响的对象、影响的范围、影响的程度等。
3、查看应用、系统日志,看日志是否有关联的报错或告警日志。
4、检查监控告警平台是否有告警信息。
5、查看服务器或集群容量和性能指标,主要看是否有容量指标超阀值,性能出现瓶颈等。
6、是否是变更导致了问题。
7、确定故障处理方案,现场如何保护、处理步骤是什么,有什么风险等。
8、处理故障
9,验证故障处理结果
(2)分析方法
1、对比分析
2、排除法
3、历史数据分析
4、趋势分析
5、时序日志分析法
(三)处理方法
1、故障隔离
2、交易降级
3、熔断
4、交易限流
5、服务、进程重启
6、服务器重启
7、变更回退
网友评论