上一篇 最后提到了服务降级。记得当时也算是花了很多精力做了服务级别的梳理,定义了核心服务,非核心服务。当非核心服务出现故障,短时间内又无法恢复,就直接被摘除掉了,等恢复回来之后在重新挂回来。
除了必要的预防措施之外,在缩短故障时常也是非常重要的。通常的做法叫做“切流”,从DNS解析层开始一直到后段每一个环节都存在把一部分流量切到另一个地方的空间。比如华北地区的流量突增,就可以按一定比例切到华南。当然,切换的前提是容量足够,这就要求做好提前压测。当时的压测基本上是两周一次。
除此之外,监控作为稳定性的基石,其重要性就不再赘述了。
网友评论