美文网首页
分布式服务框架--第七章:集群容错

分布式服务框架--第七章:集群容错

作者: celusing | 来源:发表于2020-11-17 21:15 被阅读0次

集群服务调用失败后,服务框架需要能够再底层自动容错,容错策略有很多,分别适用于不同场景。

一.容错场景

分为三大类:

  1. 通信链路发生故障;
  2. 服务端超时;
  3. 服务端调用失败;

二.容错策略

集群容错和服务路由的关系。


深度截图_选择区域_20201117204628.png

消费者根据路由策略选择某个目标地址之后,发起远程服务调用,如果远程服务调用发生异常,则框架需要进行集群容错,重新进行选路和调用。

1. 失败自动切换(Failover)

服务调用失败自动切换策略:指的是当发生RPC调用异常时,重新选路,查找下一个可用的服务提供者。

  1. 设计思想:
    消费者路由操作完成之后,获得目标地址,调用通信框架发送请求,监听服务端应答。如果返回的RPC调用异常,根据消费者集群容错的策略进行容错路由。如果是Failover,则重新返回到路由的Handler入口,从路由节点继续执行。注意:选路完成之后,对目标地址进行比对,防止重新路由到故障服务掉,过滤掉上次故障服务提供者之后,再次发送请求。
  2. 应用场景
  • 读操作,因为通常是幂等的。
  • 幂等性服务,保证调用1次和N次的效果相同。

注意:失败重试会增加服务调用时延,因此框架需要设定最大的失败重试次数,通常默认为3,防止无限制重试导致服务调用时延不可控。

2.失败通知(Failback)

在很多业务场景中,消费者需要能够获得调用失败的具体信息,通过对失败错误码等异常信息的判断,决定后续的执行策略。例如:非幂等性的服务调用。

  1. 设计思想:
    服务框架获取到服务提供者返回的RPC异常响应之后,根据策略进行容错。如果是Failback模式,则不再重试其他服务提供者,而是将RPC义仓的消息通知给消费者,由消费者捕获异常,进行后续处理。

3.失败缓存(Failcache)

Failcache策略是失败自动恢复的一种,应用场景如下:

  • 服务是状态路由,必须定点发送到制定的服务提供者。当发生链路中断、流控等导致服务暂时不可用时,服务框架将消息临时缓存起来,等待周期T,重新发送,知道服务提供者能够正常处理该消息。
  • 对时延要求不敏感的服务。
  • 通知类服务:对服务调用的实时性要求不高,可以容忍自动恢复带来的时延增加。
    注意:为了保证可靠性,Failcache策略再设计的时候需要考虑如下几个因素:
  • 缓存时间、缓存对象上限需要做出限制,防止内存溢出。
  • 缓存淘汰算法的选择
  • 定时重试的周期T、重试最大次数等限制。

4.快速失败(Failfast)

在业务高峰期,对于一些非核心的服务,希望只调用一次,失败也不再重试,位重要的核心服务节约宝贵的运行资源。

  1. 设计思想:
    快速失败策略的设计比较简单,获取到服务调用异常之后,直接忽略异常,记录异常日志。

相关文章

网友评论

      本文标题:分布式服务框架--第七章:集群容错

      本文链接:https://www.haomeiwen.com/subject/woyfiktx.html