美文网首页007-2271-不出局
接口级故障的应对方法

接口级故障的应对方法

作者: 短暂瞬间 | 来源:发表于2019-03-20 21:56 被阅读10次

第79篇

极客时间《从0开始学架构》课程笔记。

什么是接口级故障?

异地多活方案主要是应对影响大但发生概率较小的系统级故障,而发生概率更高但故障影响较小的故障就是接口级的故障。
接口级故障的典型表现:业务出现问题,但不是系统宕机或网络中断,比如响应慢、访问超时、访问异常、无法连接数据库等。

接口级故障原因

  • 主要原因:系统压力太大、负载太高,导致无法快速处理业务请求
  • 内部:程序bug导致死循环、某接口导致数据库慢查询、程序逻辑不完善导致内存耗尽
  • 外部:黑客攻击、促销或抢购引入超量用户、第三方系统大量请求、第三方系统响应缓慢

接口级故障的应对方法

核心思想:优先保证核心业务、优先保证绝大部分用户

应对方法一:降级

定义:系统将某些业务或者接口的功能降低,可以是只提供部分功能,也可以是完全停掉所有功能。核心思想就是丢车保帅,优先保证核心业务。

两种降级方式:

  1. 系统后门降级
  • 系统预留了后门用于降级操作
  • 实现成本低
  • 效率较低,且有一定安全隐患
  1. 独立降级系统
  • 设计独立的降级系统,降级指令通过降级系统发送给非核心业务系统实现降级
  • 安全性高,可实现复杂权限管理、批量管理
  • 实现成本高

应对方法二:熔断

定义:当本系统依赖的外部系统接口出现响应慢的情况时,立即返回错误,避免本系统被拖慢或拖死。降级的目的是应对系统自身的故障,而熔断的目的是应对依赖的外部系统故障的情况。

实现关键:需要一个统一的API调用层,由API掉用层进行采样或统计;需确定一个熔断阈值。

应对方法三:限流

定义:从用户访问压力的角度着手,只允许系统能够承受的访问量进来,超出系统访问能力的请求将被丢弃。

常见的两类限流方式:

  1. 基于请求限流
  • 从外部访问请求角度限制总量或限制时间量
  • 限制总量的方式是限制某个指标的累积上限,常见的是限制当前系统服务的用户总量
  • 限制时间量指限制一段时间内某个指标的上限
  • 实现简单,但难以找到合适的阈值
  • 适用于业务功能比较简单的系统,如负载均衡系统、网关系统、抢购系统
  1. 基于资源限流
  • 从系统内部角度找到影响性能的关键资源,限制其使用上限
  • 常见内部资源:连接数、文件句柄、线程数、请求队列
  • 可以更加有效地反映当前系统压力
  • 难点在于如何确定关键资源和关键资源的阈值

应对方法四:排队

定义:限流的一个变种,限流是直接拒绝用户,排队则是让用户等待一段时间。如12306网站抢票排队。

实现方式:

  • 需设计独立的系统实现,包含排队模块、调度模块、服务模块
  • 排队模块需临时缓存大量业务请求
  • 调度模块负责排队模块到服务模块的动态调度,不只传递请求,还需要调节系统处理能力
  • 服务模块负责返回处理结果

相关文章

  • 接口级故障的应对方法

    第79篇 极客时间《从0开始学架构》课程笔记。 什么是接口级故障? 异地多活方案主要是应对影响大但发生概率较小的系...

  • 31 | 如何应对接口级的故障?

    异地多活方案主要应对系统级的故障,例如,机器宕机、机房故障、网络故障等问题,这些系统级的故障虽然影响很大,但发生概...

  • 应对接口级故障的几个方案

    核心思想:优先保证核心业务 + 优先保证大多数用户 1、降级 使某些非核心功能不可用,比如微博的发帖、看帖、评论功...

  • 架构总结30--如何应对接口级的故障

    异地多活方案主要应对系统级的故障,例如,机器宕机、机房故障、网络故障等问题,这些系统级的故障虽然影响很大,但发生概...

  • 应对接口级故障:服务降级、熔断、限流、排队

    接口级故障:系统没有宕机、网络没有中断,但是业务却出现了问题:业务响应慢、大量访问超时、大量访问异常。本质:系统负...

  • 2020-01-16 dubbo超时时间与线程数设置

    dubbo的超时时间 优先级:方法级 > 接口级 > 全局级 以provider为例: 1,方法级别 2,接口...

  • 不安分的电脑和手机

    最近我的二手MacBook Air开始出故障,于是日更挑战又中断了。 故障:无故黑屏关机,怎么也开不开。 应对方法...

  • redis持久化

    为了更好应对故障恢复。

  • 接口和mvp实现流程

    作用:给一部分类做方法级的抽象回调:A类实现接口持有接口对象,传递接口对象给B类,B类调用接口的方法,A类就会执行...

  • es的故障应对

    我们现在假设有一个这样的集群,有3个主分片,有6各复制分片如下图所示: 我们杀掉一个master节点来模拟故障。一...

网友评论

    本文标题:接口级故障的应对方法

    本文链接:https://www.haomeiwen.com/subject/thkxvqtx.html