线上流量突增百万高可用保障方案

作者: 雪飘千里 | 来源:发表于2023-05-04 15:02 被阅读0次

面试中限流问题
阿里巴巴高可用架构团队19年暑期实习生招聘
阿里巴巴高可用架构团队应届生招聘
阿里巴巴高可用架构团队招新（提前批不影响秋招）
01 | 高并发系统：它的通用设计方法是什么？
一道关于系统高可用的面试题
阿里巴巴高可用架构团队19年应届生招聘【提前批】
Keepalived实现ranger admin 高可用方案
② OpenStack高可用集群部署方案(train版)—Key
① OpenStack高可用集群部署方案(train版)—基础配

一：事前预防

1、预估系统瓶颈

1.1 梳理核心接口

按调用量梳理Top100
PM按业务重要等级梳理下端可能起量的接口
输出终版的接口文档

1.2 评估核心接口最高的TPS

测试环境模拟生产环境数据
核心接口进行全链路压测
输出核心接口性能报告

2、系统高可用保障措施

2.1、核心接口限流治理(不依外部接口)

应用集成sentinel
应用对应的接口接入限流
打印限流日志(便于设置告警)
sentinel管理端配置接口限流闯值(参考:接口最高的TPS*20%)

2.2、核心接口超时治理、熔断兜底治理(依赖外部接口)

应用集成sentinel
设置调用外部请求超时时间 (默认为3s)
打印超时日志(便于设置告警)
应用对应的接口接入熔断
跟业务确认好兜底方案
打印兜底日志(便于设置告警)
sentinel管理端配置接口熔断闽值(按响应时间RT、异常数、异常比例设置)

2.3、监控告警

接口调用量突增告警(基于监控能力)
接口限流告警(基于打印的限流日志配置)
调用外部接口超时告警(基于打印的超时日志配置)
业务监控（例如，活动发放监控，券发放监控，积分发放与商城积分兑换监控
应用Job，涉及事务操作支持幂等

2.4、应急预案准备

梳理核心接口异常风险点(主要评估可降级的关键地方)
非业务手工降级(配置disconf动态配置开关手工降级)
接口层面直接降级(配置disconf动态配置开关手工降级)

2.5、每日健康度巡检(每天早上9点)

2.5.1 错误日志检查

2.5.2 应用指标检查(CPU、内存fullgc、繁忙线程数)

2.5.3 中间件指标

redis : cpu，内存使用率，每秒命令写入数，redis慢查询
kafka：生产速率，消费速率，kafka积压情况

2.5.4 数据库指标

cpu：内存使用率， IO，慢SQL

2.2.5、接口指标

APM8大于1s接口
核心接口调用量峰值是否飙升

2.2.6 核心业务功能巡查(比如会员中心、查券、查询折扣)

2.5.7 异常监控告警日志原因检查

二：事中处理

1、应用重启

CPU打满
线程池打满

2、应用升配

应用升配，中间件升配，数据库生胚

CPU升配(比如8慈升到16核)
内存升配(比如8G升到16G)
应用内存升配后JVM参数优化

3、扩容

应用扩容：应用节点扩容(8节点-12节点)
中间件扩容： redis扩容(redis增加主从节点) kafka扩分区(增加kafka分区)

4、流量控制

disconf开启应急预案接口关闭配置开关，快速切断流量
sentinel管理端修改接口限流闻值(比如从之前的100降低到50)，限制流量

5、版本回滚

配置回滚(挂载和Disconf配置)
应用版本回滚

6、业务(影响系统性能)下线

业务下线
知会产品或运营

三：事后复盘

以一个P0级别故障项目复盘为例，说明

1、事件回顾

1、x月x号xx:xx分（比如3月14日 20:20分）运营人员上线XXX策略，其中多条优惠策略是面向全网用户生效；
2、x月x号xx:xx分，研发突然收到系统大量接口告警，研发迅速开始查询日志排查问题；
3、x月x号xx:xx分，运维反馈有部分应用节点不可用，运维开始对应用cpu和节点数进行水平扩容并且串行重启动态优惠系统所有节点；
4、x月x号xx:xx分，xx系统反馈xx业务出现大量下滑，启动P0故障；
5、x月x号xx:xx分，系统部分节点出现自动重启，研发和运维继续监控检查系统各项指标；
6、x月x号xx:xx分，通过监控发现redis出现一些大key，流量非常高，达到1.8G/s,经排查是新上业务策略报文太大导致redis出现大key；
7、x月x号xx:xx分，运营下架相关业务策略，系统恢复正常。

整个故障持续时间接近20分钟，间接影响收入XXX万，定级为P0故障

2、问题分析及解决办法

问题分析:

运营当天配置了XX策略，每条策略大概有XXX个规则；
之前的策略数据都是存储在redis中，所以运营配置XX条策略生效以后，redis接收到的报文瞬间变得非常大，策略key快速升级为大key，从1kb变成60kb，客户端频繁请求redis大key，流量高达1.8G/s，很快系统的http线程池被打满请求无法响应，系统进入假死状态。

解决办法:

优化edis大key：事发当晚，针对redis大key场景，引入本地缓存作为一级缓存，优先从本地存读取数据，减少对redis中间件的压力，优化后redis运行比较平稳
增加系统异常预案处理：在配置中心增加动态关闭接口的开关，一旦出现系统将不可用的情况。立即打开开关，进行人工降级并返回兜庭数据，等待系统资源正常后再打开开关。

3、总结与反思

1、研发侧

对redis重度依赖，redis有细微的抖动，服务接口响应时间波动非常大，系统风险大；
redis使用不规范，没有提前对redis大key作出预判，导致面对突发流量，系统扛不住；
没有形成一套标准的高井发和高稳定性的架构设计评审方案，由于xxx系统属于核心系统，每天请求的OPS很大，所以对于系统的稳定性设计要求极高，可能设计方案出现一点疏忽就会影响系统整体的稳定性；
性能压测没有真实模拟线上数据，导致压测结果有偏差，不能对研发同学优化性能做到精准支撑；

2、底盘运维侧:

目前我们所有的应用都已经上云，对集团底盘能力依赖较重，但集团提供的排查工具比较粗糙，没有顺手的工具可用，这里总结了几点如下:

JVM层面:

获取dump线程文件：每次都需要找运维帮忙手工dump线程文件，人工介入比较慢。

定位详细的性能瓶颈：目前实时在线分析应用指标的性能问题比较难，底盘提供的grafana指标监控，只能分析粗略的结果，不能准确定位是什么原因导致CPU飘高、频繁full gc、http线程被打满，排查问题周期较长。
中间件层面:

redis工具缺乏：目前底盘没有的redis慢查询、热Key、大key等监控工具，导致redis线上排查问题很困难

运维没有开放底层中间件与数据库的监控告警给业务研发，导致业务研发不能及时收到告警作出合理的响应。

3、产品运营侧:

产品侧：负责系统的产品同学经常换人，系统缺乏沉淀，而且系统逻辑复杂度很高，新人熟悉底层逻辑的时间通常很久，这样就会导致出需求的时候考虑不完善漏掉一些核心逻辑。
运营侧：运营同学上架策路节奏过快，策略上线后经常面向全网用户，如果出现问题，会引起大量客诉，风险高

4、行动与结果

1 研发测

输出一套标准的redis使用规范，包括redis存储规范、redis热key解决方案、redis大key解决方案，并在部门内进行导，避免其他组坑
开发redis热key、大key监控与告警的工具并且集成到鹰眼监控平台，方便部门研发人员第一时间定位问题
后续产品需求进入研发前，必须事先有严格的技术方案评审，研发同学必须输出架构方案设计图、接口详细设计、数据库设计、性能与安全设计、服务限流与降级配置、监控告警配置、预案设计，文档沉淀到CF，由各组PM主导，相关的研发和测试人员必须参与
性能压测必须输出一套统一的标准，压测的测试场景与线上高度还原，接口如果达不到业务要求上线的标准，测试同学通过邮件报备，与PM商量后是否延期需求，等研发优化完达到指定的性能标准后再上线

2 底盘运维侧

JVM层面：建议获取dump线程文件自动化，运维可以在集团云提供一个可视化页面，研发同学可以随时下载系统异常时刻dump线程文件

建议集团云在k8s容器集成Arthas性能分析工具，很多互联网大厂在使用，可实时在线分析应用相关指标，非常方便。
中间件层面：建议运维开放中间件和数据库的监控给业务研发，确保研发第一时间接收到信息进行处理，及时消除潜在的系统风险；

建议底盘开发redis慢查询和告警功能，可以串联skywalking分布式链路工具一起输出，这样排查性能问题非常有用

3 产品运营侧

产品侧：建议产品同学尽可能固定并且有备份同学，稳定的团队有利于系统长期、持续的规划和沉淀系统还有不少前任产品留下来的业务债务；

建议产品同学预留足够的时间优先处理这些债务，否则做的越多销的越多，我理解现在的慢是为了将来的快，欲速不达，
运营侧：后期上策略建议邮件抄送，建议说明策略面向的用户量和生效时间，便于研发提前监控数据以及是否根据系统支撑的最大QPS对系统进行扩容处理，同时增加审批的流程，比如运营负责人审批后才能上线策略；

建议运维上线策略采用灰度发布的方式，发布当天，运营密切关注数据是否正常，确定没问题后第二天再推向全网用户

面试中限流问题
保障分布式应用高可用方案中，限流是必须的，超过一定的流量，我们就拒绝提供服务，从而使得我们的服务不会挂掉，所以限流...
阿里巴巴高可用架构团队19年暑期实习生招聘
团队介绍：高可用架构团队是阿里巴巴保障稳定性的护航舰队，提供的高可用架构基础设施直面双11洪峰流量，包括全链路压...
阿里巴巴高可用架构团队应届生招聘
团队介绍：高可用架构团队是阿里巴巴保障稳定性的护航舰队，提供的高可用架构基础设施直面双11洪峰流量，包括全链路压...
阿里巴巴高可用架构团队招新（提前批不影响秋招）
团队介绍：高可用架构团队是阿里巴巴保障稳定性的护航舰队，提供的高可用架构基础设施直面双11洪峰流量，包括全链路压...
01 | 高并发系统：它的通用设计方法是什么？
高并发代表着高流量，高并发系统的魅力就在于我们可用凭借自己的聪明才智设计巧妙的方案，从而抵抗住流量的冲击，带给用户...
一道关于系统高可用的面试题
1.导致系统不可用的原因有哪些？保障系统稳定高可用的方案有哪些？请分别列举并简述。答：答：导致系统不可用的原因主要...
阿里巴巴高可用架构团队19年应届生招聘【提前批】
团队介绍高可用架构团队是阿里巴巴保障稳定性的护航舰队，提供的高可用架构基础设施直面双11洪峰流量，包括全链路压测...
Keepalived实现ranger admin 高可用方案
Keepalived实现ranger admin 高可用方案简介： Ranger自身没有高可用方案，通过amba...
② OpenStack高可用集群部署方案(train版)—Key
① OpenStack高可用集群部署方案(train版)—基础配置② OpenStack高可用集群部署方案(tra...
① OpenStack高可用集群部署方案(train版)—基础配
① OpenStack高可用集群部署方案(train版)—基础配置② OpenStack高可用集群部署方案(tra...

线上流量突增百万高可用保障方案

一：事前预防

1、预估系统瓶颈

1.1 梳理核心接口

1.2 评估核心接口最高的TPS

2、系统高可用保障措施

2.1、核心接口限流治理(不依外部接口)

2.2、核心接口超时治理、熔断兜底治理(依赖外部接口)

2.3、监控告警

2.4、应急预案准备

2.5、每日健康度巡检(每天早上9点)

2.5.1 错误日志检查

2.5.2 应用指标检查(CPU、内存fullgc、繁忙线程数)

2.5.3 中间件指标

2.5.4 数据库指标

2.2.5、 接口指标

2.2.6 核心业务功能巡查(比如会员中心、查券、查询折扣)

2.5.7 异常监控告警日志原因检查

二： 事中处理

1、应用重启

2、应用升配

3、扩容

4、流量控制

5、版本回滚

6、业务(影响系统性能)下线

三： 事后复盘

1、 事件回顾

2、问题分析及解决办法

问题分析:

解决办法:

3、总结与反思

1、研发侧

2、底盘运维侧:

3、产品运营侧:

4、行动与结果

1 研发测

2 底盘运维侧

3 产品运营侧

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

2.2.5、接口指标

二：事中处理

三：事后复盘

1、事件回顾