提高系统可用性调研

作者: onjianshu | 来源:发表于2017-10-14 23:14 被阅读0次

提高系统可用性调研
4.tomcat系统优化
078｜可用性测试：用最便宜、最快的方式，纠正错误
MQ-面试
产生消息
消息队列
ZERO TO ONE |「付钱拉」支付系统架构系列二：如何提高
用户调研之可用性测试名单筛选实践
高可用性
分布式技术栈

遇到的问题

目前系统中，为了保证服务的可用性。充斥着大量的重试和降级相关的代码。遇到以下几个问题：

重试和降级的逻辑需要重复编写，容易产生错误。
重试和降级逻辑并没有很好的监控和管理。发现问题比较被动，发生问题后手动修数据比较麻烦。

如何解决问题

解决问题一要做的就是对通用的逻辑进行抽象。在需要使用重试的场景时，通过简单的配置声明就能解决问题。
解决问题二则需要对哪些服务调用失败了，重试过几次，采用的是什么降级策略进行记录。对一些关键的事件进行告警。例如调用失败，进行过降级等。对于需要人工参与处理的场景，则需要提供入口进行人工补偿。如果有必要还可以单独开发一个系统来维护和管理。

关于重试

适合通过重试来保证可用性的场景有：

只读操作或幂等写操作。例：假设调用服务A的超时时间是2秒，服务A的执行时间是3秒。在A服务执行结束之前调用方超时重试。如果服务A不是幂等的就会出现问题。
不需要外部数据变更协助来完成的操作。例：如果调用服务A返回的是参数校验类的错误，则不管重试几次也不会成功。

重试的技术方案

固定的for循环

for (int i = 0; i < RETRY_TIMES; i++) {
                try {
                    //服务调用
                    break;
                } catch (Exception e) {
                    if (i == RETRY_TIMES - 1) {
                        throw e;
                    }
                }
            }

优点：简单直接
缺点：重复代码较多，容易产生错误，仅支持简单的重试策略。

利用Spring-retry或guava-retryer
优点：功能完整，对重试涉及的相关逻辑，进行了良好的抽象。
缺点：有一些学习和改造的成本。
完全异步的解决方案。将错误消息推送到另一个系统或记录到数据库中稍后重试。
优点：将重试逻辑与正常业务逻辑完全拆分开，可以分别维护互不影响。消息可以在故障的时候堆积起来，等故障恢复了再慢慢来处理，减少人工介入的成本。
缺点：引入了额外的复杂度。会增加调试和维护成本。只适合幂等写操作并且不需要同步返回结果的情况。

实际场景

只读服务

可采用方案2来解决，会增加响应时间。

幂等写需要同步返回结果的服务

可采用方案2来解决，会增加响应时间。

幂等写不需要同步返回结果的服务。

可采用方案2，3来解决。

关于降级

采用降级方案时，需考虑的主要问题是方案的合理性和可能会产生的影响。

使用降级的场景

通过远程服务读取操作降级为从本地缓存读取。牺牲的是数据一致性。
通过远程服务读取操作改为返回默认值。牺牲的是正确性。
买二等座降级为买一等座，类似的业务降级则要和相关的利益方进行沟通确认。
对于不重要的服务在发生问题时直接关闭开关，保证关键服务的正常使用。
牺牲的是非关键业务或数据的可用性。

技术方案

可以使用Spring-try项目配合开关来实现。有损服务更多的是取舍的考虑。

总结

以上就是工作中对相关问题的思考记录，等以后有更多的理解了再补充完整。

网友评论

本文标题：提高系统可用性调研

本文链接：https://www.haomeiwen.com/subject/lgzfuxtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

提高系统可用性调研

遇到的问题

如何解决问题

关于重试

重试的技术方案

实际场景

只读服务

幂等写需要同步返回结果的服务

幂等写不需要同步返回结果的服务。

关于降级

使用降级的场景

技术方案

总结

相关文章

提高系统可用性调研

4.tomcat系统优化

078｜可用性测试：用最便宜、最快的方式，纠正错误

MQ-面试

产生消息

消息队列

ZERO TO ONE |「付钱拉」支付系统架构系列二：如何提高

用户调研之可用性测试名单筛选实践

高可用性

分布式技术栈

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读