打造平台稳定性能力
限流和降级
-
这两种能力是平台在服务化体系下还能保持稳定运行所必须具备的
-
实现这两个功能是简单的,但是要中台化,阿里是通过哨兵系统来实现
-
sentinel哨兵系统四大功能模块
1.授权——通过配置白名单与黑名单的方式对HSF的接口和方法进行调用权限的控制
-
限流——对我写资源进行调用的保护,防止资源的过度调用
-
降级——判断依赖的资源的响应情况,当依赖的资源响应时间过长时,进行自动降级,并且在指定的时间后自动恢复调用
-
监控——提供了你下面的运行状态监控,实时监控资源的调用情况
-
-
两个基础概念,资源和策略,对我写的资源采取不同的控制策略,起到保障应用稳定性的作用
流量调度
-
分布式系统中单个结点问题会影响整个链路或者系统
-
分布式服务环境调用链路局部问题会被放大到整个链路
-
单点、局部问题会被放大成面
-
-
实现原理
秒级获取服务器系统运行指标以及业务指标,通过流量调度平台设置的决策算法以及规则,来进行服务上下线等操作
业务开关
-
统一的业务开关管理switch平台
-
多种不同类型的配置项和业务开关的基础推送功能和推送方式
-
线上控制台直接推送到内存
-
线上控制台持久化推送
-
diamond控制台直推送
-
HTTP API推送
-
容量压测及评估规划
-
容量压测是通过线上真实的流量引流到压测目标机器上,从而获取到单机QPS数据及发现可能的性能问题
-
评估规划即通过上面获取的数据在评估预测平台来进行服务的规划部署
全链路压测平台
个人认为很重要,但是容易被忽视的就是全链路压测,在分布式系统中,以往的测试或者普通压测不再能发现服务对整个链路的影响,全链路压测至关重要,往往新增一个旁路的接口调用故障超时,就可能导致整个链路崩溃,而整个业务链路的性能取决于速度最慢的服务
业务一致性平台
-
实时业务审计平台(Business Check Platform, BCP)
-
高实时性地发现业务脏数据或错误逻辑实现,第一时间发现并及时通知技术保障人员,而不是等客户反馈
-
方便地接入各种业务规则,通过脚本规则编写的方式,让各应用快速接入业务审计平台
-
整合订正工具,形成规范的赃数据订正流程
-
业务上线的实时监控,新上线业务可以很方便地进行校验
-
网友评论