美文网首页
线上故障快速排查、处理、预防

线上故障快速排查、处理、预防

作者: 机智的小阿文 | 来源:发表于2020-11-23 14:16 被阅读0次

    线上故障排查思路

    1、个例还是大规模问题
    2、是否有版本升级
    3、服务、依赖服务、数据服务是否存活,是否出现服务进程被异常关闭的情况
    4、服务日志是否有报错
    5、网关、依赖服务日志是否有报错
    6、用户量是否出现激增
    7、请求量是否激增,是否有羊毛党或恶意刷接口情况
    8、服务所在服务器CPU、内存、磁盘是否正常
    9、服务所用数据库、缓存redis服务是否正常
    10、数据库、缓存服务所在服务器CPU、内存、磁盘是否正常
    11、机房网络是否正常,是否有修路挖断电缆的情况

    线上故障处理思路

    1、发布的版本,如有相关的H5、后端服务进行回退;若是终端版本,应用市场无法回退的,后端做兼容处理,APP发版迭代
    2、根据服务日志、网关日志、依赖服务日志定位解决问题,并紧急发布修复
    3、服务器、数据库扩容,服务、数据库限制的内存、线程数扩大或增加服务器
    4、如数据库锁死,则需解锁
    5、启动羊毛党、恶意强刷拉黑机制
    6、如大量影响用户正常使用,终端展示说明、安抚公告

    规避防范思路

    1、增加紧急异常情况处理机制:
    (1)上游请求激增的情况,高频请求的ip、设备、账号直接拦截,或扩容
    (2)下游服务宕机的情况,解耦处理
    (3)网关异常且一时间无法恢复的情况,绕过网关处理
    2、监控警报:
    (1)服务器、服务、数据库监控
    (2)服务核心业务功能监控
    (3)核心接口请求量监控
    (4)用户访问量监控,当用户激增尚未报错时也做好准备

    相关文章

      网友评论

          本文标题:线上故障快速排查、处理、预防

          本文链接:https://www.haomeiwen.com/subject/phomiktx.html