分布式服务框架--第七章：集群容错

作者: celusing | 来源:发表于2020-11-17 21:15 被阅读0次

集群服务调用失败后，服务框架需要能够再底层自动容错，容错策略有很多，分别适用于不同场景。

分为三大类：

集群容错和服务路由的关系。

深度截图_选择区域_20201117204628.png

消费者根据路由策略选择某个目标地址之后，发起远程服务调用，如果远程服务调用发生异常，则框架需要进行集群容错，重新进行选路和调用。

服务调用失败自动切换策略：指的是当发生RPC调用异常时，重新选路，查找下一个可用的服务提供者。

设计思想：
消费者路由操作完成之后，获得目标地址，调用通信框架发送请求，监听服务端应答。如果返回的RPC调用异常，根据消费者集群容错的策略进行容错路由。如果是Failover，则重新返回到路由的Handler入口，从路由节点继续执行。注意：选路完成之后，对目标地址进行比对，防止重新路由到故障服务掉，过滤掉上次故障服务提供者之后，再次发送请求。
应用场景

注意：失败重试会增加服务调用时延，因此框架需要设定最大的失败重试次数，通常默认为3，防止无限制重试导致服务调用时延不可控。

在很多业务场景中，消费者需要能够获得调用失败的具体信息，通过对失败错误码等异常信息的判断，决定后续的执行策略。例如：非幂等性的服务调用。

设计思想：
服务框架获取到服务提供者返回的RPC异常响应之后，根据策略进行容错。如果是Failback模式，则不再重试其他服务提供者，而是将RPC义仓的消息通知给消费者，由消费者捕获异常，进行后续处理。

Failcache策略是失败自动恢复的一种，应用场景如下：

服务是状态路由，必须定点发送到制定的服务提供者。当发生链路中断、流控等导致服务暂时不可用时，服务框架将消息临时缓存起来，等待周期T，重新发送，知道服务提供者能够正常处理该消息。
对时延要求不敏感的服务。
通知类服务：对服务调用的实时性要求不高，可以容忍自动恢复带来的时延增加。
注意：为了保证可靠性，Failcache策略再设计的时候需要考虑如下几个因素：
缓存时间、缓存对象上限需要做出限制，防止内存溢出。
缓存淘汰算法的选择
定时重试的周期T、重试最大次数等限制。