美文网首页
提高系统可用性调研

提高系统可用性调研

作者: onjianshu | 来源:发表于2017-10-14 23:14 被阅读0次

遇到的问题

目前系统中,为了保证服务的可用性。充斥着大量的重试和降级相关的代码。遇到以下几个问题:

  1. 重试和降级的逻辑需要重复编写,容易产生错误。
  2. 重试和降级逻辑并没有很好的监控和管理。发现问题比较被动,发生问题后手动修数据比较麻烦。

如何解决问题

  1. 解决问题一要做的就是对通用的逻辑进行抽象。在需要使用重试的场景时,通过简单的配置声明就能解决问题。
  2. 解决问题二则需要对哪些服务调用失败了,重试过几次,采用的是什么降级策略进行记录。对一些关键的事件进行告警。例如调用失败,进行过降级等。对于需要人工参与处理的场景,则需要提供入口进行人工补偿。如果有必要还可以单独开发一个系统来维护和管理。

关于重试

适合通过重试来保证可用性的场景有:

  1. 只读操作或幂等写操作。例:假设调用服务A的超时时间是2秒,服务A的执行时间是3秒。在A服务执行结束之前调用方超时重试。如果服务A不是幂等的就会出现问题。
  2. 不需要外部数据变更协助来完成的操作。例:如果调用服务A返回的是参数校验类的错误,则不管重试几次也不会成功。

重试的技术方案

  1. 固定的for循环
for (int i = 0; i < RETRY_TIMES; i++) {
                try {
                    //服务调用
                    break;
                } catch (Exception e) {
                    if (i == RETRY_TIMES - 1) {
                        throw e;
                    }
                }
            }

优点:简单直接
缺点:重复代码较多,容易产生错误,仅支持简单的重试策略。

  1. 利用Spring-retry或guava-retryer
    优点:功能完整,对重试涉及的相关逻辑,进行了良好的抽象。
    缺点:有一些学习和改造的成本。
  2. 完全异步的解决方案。将错误消息推送到另一个系统或记录到数据库中稍后重试。
    优点:将重试逻辑与正常业务逻辑完全拆分开,可以分别维护互不影响。消息可以在故障的时候堆积起来,等故障恢复了再慢慢来处理,减少人工介入的成本。
    缺点:引入了额外的复杂度。会增加调试和维护成本。只适合幂等写操作并且不需要同步返回结果的情况。

实际场景

只读服务

可采用方案2来解决,会增加响应时间。

幂等写需要同步返回结果的服务

可采用方案2来解决,会增加响应时间。

幂等写不需要同步返回结果的服务。

可采用方案2,3来解决。

关于降级

采用降级方案时,需考虑的主要问题是方案的合理性和可能会产生的影响。

使用降级的场景

  1. 通过远程服务读取操作降级为从本地缓存读取。牺牲的是数据一致性。
  2. 通过远程服务读取操作改为返回默认值。牺牲的是正确性。
  3. 买二等座降级为买一等座,类似的业务降级则要和相关的利益方进行沟通确认。
  4. 对于不重要的服务在发生问题时直接关闭开关,保证关键服务的正常使用。
    牺牲的是非关键业务或数据的可用性。

技术方案

可以使用Spring-try项目配合开关来实现。有损服务更多的是取舍的考虑。

总结

以上就是工作中对相关问题的思考记录,等以后有更多的理解了再补充完整。

相关文章

  • 提高系统可用性调研

    遇到的问题 目前系统中,为了保证服务的可用性。充斥着大量的重试和降级相关的代码。遇到以下几个问题: 重试和降级的逻...

  • 4.tomcat系统优化

    1.tomcat系统优化 指标 降低响应时间提高系统吞吐量(QPS)提高服务的可用性 2.性能优化中使用的工具 J...

  • 078|可用性测试:用最便宜、最快的方式,纠正错误

    078|可用性测试:用最便宜、最快的方式,纠正错误 需求调研的第三种方法:可用性测试。 概念:可用性测试 可用性,...

  • MQ-面试

    目的 解耦、异步、削峰 问题 系统可用性降低,增加了mq环节,mq挂掉导致整个系统挂掉 系统复杂度提高,需要针对m...

  • 产生消息

    优点:解耦,削峰、数据分发 缺点:系统可用性降低(mq高可用)、系统复杂度提高(消息丢失、消息顺序、保证没有重复消...

  • 消息队列

    消息队列的诞生 优点 解耦 异步 削峰 缺点: 系统可用性降低 系统复杂性提高 功能维度 优先级队列 延迟队列 死...

  • ZERO TO ONE |「付钱拉」支付系统架构系列二:如何提高

    接上篇:ZERO TO ONE |「付钱拉」支付系统架构系列二:如何提高应用的可用性(上篇) 我们讲到「付钱拉」为...

  • 用户调研之可用性测试名单筛选实践

    可用性测试是用户调研常用的定性研究方法之一,筛选出可靠的、有样本代表性的调研名单,是决定可用性测试质量的第一步。样...

  • 高可用性

    高可用性概述 什么是高可用性 高可用性 = 高 + 可用性。可用性(Availability)表示系统能在客户需要...

  • 分布式技术栈

    构建分布式系统的目的是增加系统容量,提高系统的可用性,转换成技术方面,也就是完成下面两件事。 大流量处理。通过集群...

网友评论

      本文标题:提高系统可用性调研

      本文链接:https://www.haomeiwen.com/subject/lgzfuxtx.html