美文网首页
对生产问题(故障)的认识

对生产问题(故障)的认识

作者: 溪水散人 | 来源:发表于2022-03-26 12:52 被阅读0次

    生产问题的定义

    在人类社会生产中,人们每天都会进行劳动作业,生产产品。生产过程中,如果操作不符合流程、或者设计上存不合理,则会引发相关生产问题。如一些生产汽车的公司,生产的汽车被爆出有问题,则要召回处理。本文主要讨论的是在软件开发领域,系统不符合生产预期、影响用户使用、不可用的问题。

    生产问题的定级

    故障定级,一般来说有以下5级:
    1)P1级别:系统中断2小时以上,造成大范围影响使用
    2)P2级别:系统中断30分钟-2小时之间,造成大范围影响使用
    3)P3级别:系统重要模块出现问题,造成大量用户投诉
    4)P4级别:系统次要模块出现问题,造成部分用户投诉
    5)P5级别:系统次要模块出现问题,造成少量用户投诉

    生产问题产生的原因

    代码bug

    1)空指针
    2)线程不安全
    3)死锁
    4)兼容性问题

    依赖服务出现问题

    1)宿主机网路、磁盘出现问题
    2)基础服务不可用,如中间件出现问题
    3)被调用服务异常

    生产问题的处理措施

    代码层面造成的问题
    1)快速定位问题
    2)代码修复(注:别引发其他问题,测试覆盖要全面)
    3)紧急上线
    非代码层面的问题
    1)宿主机出现问题:应用停服。进行宿主机修复如磁盘扩容、网路联通修复。或者应用迁移。
    2)基础服务不可用:要快速定位问题,基础服务是全公司在用的服务。考虑基础服务的故障恢复、高可用。
    3)被调服务异常:包括内部服务、第三方服务,建立超时机制,考虑服务的降级、熔断。

    生产问题的事后复盘

    1)建立生产问题出现、定位、解决时间线
    2)明确生产问题出现原因,给出具体结论
    3)对生产问题的定位过程,如定位到问题的时间、方法,进行总结
    4)建立完善的机制,避免同类似的问题再次出现

    相关文章

      网友评论

          本文标题:对生产问题(故障)的认识

          本文链接:https://www.haomeiwen.com/subject/boxsjrtx.html