美文网首页
故障处理

故障处理

作者: 自天佑之吉无不利 | 来源:发表于2023-10-05 20:35 被阅读0次

故障发生时

在故障发生时,最重要的是快速恢复故障。而快速恢复故障的前提是快速定位故障源。因为在很多分布式系统中,一旦发生故障就会出现“多米诺骨牌效应”。也就是说,系统会随着一个故障开始一点一点地波及到其它系统,而且这个过程可能会很快。一旦很多系统都在报警,要想快速定位到故障源就不是一件简单的事了。

如果我们的系统架构是分布式服务化的,那么一个用户的请求可能会经过很多的服务,开发和运维起来是非常麻烦的。此时,跨团队跨部门的开发和运维就变得非常重要了。

故障源团队通常会有以下几种手段来恢复系统。

• 重启和限流。重启和限流主要解决的是可用性的问题,不是功能性的问题。重启还好说,但是限流这个事就需要相关的流控中间件了。

• 回滚操作。回滚操作一般来说是解决新代码的 bug,把代码回滚到之前的版本是快速的方式。

• 降级操作。并不是所有的代码变更都是能够回滚的,如果无法回滚,就需要降级功能了。也就是说,需要挂一个停止服务的故障公告,主要是不要把事态扩大。

• 紧急更新。紧急更新是常用的手段,这个需要强大的自动化系统,尤其是自动化测试和自动化发布系统。假如你要紧急更新 1000 多台服务器,没有一个强大的自动化发布系统是很难做到的。

也就是说,出现故障时,最重要的不是 debug 故障,而是尽可能地减少故障的影响范围,并尽可能快地修复问题。

此文章为10月Day3学习笔记,内容来源于极客时间《左耳听风》,强烈推荐该课程

相关文章

  • 线上故障处理书目录

    线上故障处理之故障信息获取源 线上故障处理之处理流程 线上故障处理之故障后处理

  • 故障处理

    解决方法:

  • 故障处理

    故障review前准备工作: 1、详细处理过程2、导致故障的原因3、故障影响范围、相关数据等4、故障的后续改进计划...

  • 我对故障处理的看法

    故障处理这个问题,仔细思考起来,非常有趣。 故障处理场景越多越好么? 故障处理的根本目的是,活下去,让公司、部门、...

  • gitlab 500 no space left on devi

    gitlab故障处理一: gitlab nginx页面500 记一次gitlab故障处理之no space lef...

  • 汽车应急技巧你真的掌握了吗?

    应急,也就是必须立即处理的故障,不必马上处理的就不说了。很多时候这些故障都是表征,懂之后可以确定故障原因,以及怎么...

  • 故障处理流程总结

    一、总体流程1、故障突然发生2、评估影响范围并进行通报3、处理故障(1) 启动应急方案处理(2) 问题彻底处理4、...

  • 语音故障处理

    [TOC] tags:PON 故障 语音 语音故障处理 1. 语音业务模型 1.1. 语音业务涉及到的设备 语音故...

  • Polly 故障处理

    Polly是一种.NET弹性和瞬态故障处理库,允许我们以非常顺畅和线程安全的方式来执诸如行重试,断路,超时,故障恢...

  • ceph故障处理

    1. 3 stuck requests are blocked > 4096 sec. Implicated os...

网友评论

      本文标题:故障处理

      本文链接:https://www.haomeiwen.com/subject/ltxpbdtx.html