美文网首页
阿里双十一智能全链路压测

阿里双十一智能全链路压测

作者: c4a1d989518e | 来源:发表于2018-01-23 10:25 被阅读379次
image.png

模型预测:采集往年大促业务数据,制定预测样本,通过预测算法,预测当前大 促峰值模型。
压测模型智能划分和计算:将模型按照不同业务划分为可执行压测模块,统筹计 算整体压测指标和各子模块压测业务指标(拆单比、主订单、子订单、购物车:立即 购买、商品类型占比等),确保子模块和整体模型的一致性、准确性和完备性。
压测模型自动化调整:自动化调整压测模型,调整整体数据、业务指标等,达到 一次压测验证多套模型的效果。
模型构建:一体化模型构建,根据模型参数,自动构建压测模型,生成压测流 量,构建过程中可自动进行异常校验和模型数据校验,确保最终压测流量准确率。
压测方案:一键生成多单元多业务压测方案,压测方案可在多环境下执行,并且 可根据业务要求,多模型组合执行。
智能管理模块:控制整体模型生产过程,一键操作,校验和修复异常流,控制模 型构建对上下游系统影响,并使整体流程可视。
智能压测模型支撑大促效果:产出的全链路压测模型准确率达到 90% 以上,可 在一天内完成大促压测方案设计计算和亿级别模型数据输出。

智能模型图

自动化施压

压测执行过程自动化,提高压测执行过程的准确率和效率,减少人为操作导致的 异常和误差。

如下图 3 所示,今年在压测执行过程中,预热、预案、限流设置和动态调整、压 测资源自动分配、施压整个过程均一键化操作,由系统校验执行结果及其准确性。通过智能施压,今年的施压量级达到 1600 万 /s,预案执行准确率 100%,预热充分, 限流准确。


自动化施压流程图

预热系统化

大促期间预热必不可少,本地缓存和外部缓存均需要预热到位,避免大促峰值期 间缓存被击穿,直接打到 DB 端产生雪崩效应,导致系统波动。

以往都是各个业务系统自行预热,中间可能会存在疏漏和预热不完善,今年推 出智能预热系统,可覆盖核心应用及应用间关联的预热场景,一键实现全链路系统预 热,事半功倍的同时也提升了预热的准确性。

通过智能预热系统,已实现亿级别数据的缓存预热、应用预热和 DB 预热,确保 系统在 0 点峰值时处于活跃状态。

预热系统结构图

压测云化

压测云化,通过内部服务和上云实现外部服务,将集团内外的全链路应用全部纳 入到压测范围中,即保障平台内部应用系统稳定,也保障关联的外部卖家应用性能稳 定,在大促时达到整体稳定和双赢。

内部服务:产品化输出服务,为内部各业务提供可定制模型、容量弹性伸缩等个 性化服务。

外部服务:将压测系统产品化上云,为外部商家提供压测服务,可实现数据、场 景、模型、压测一键式操作,模型更接近大促峰值模型,压测环境和大促保持一致, 压测效果更真实,保障卖家自身系统容量准确可靠。

以往的卖家自身系统压测过程中,是 mock 集团内部业务,直接模拟最后一步达 到其自身系统的请求,同时使用的数据也比较单一,这中间会出现很多业务点覆盖不 到,模型不完善,出现很多意想不到的问题;通过压测上云服务,可以为卖家提供真 实的模型和丰富的数据,压测直接从最源头发起,把所有业务路径节点均覆盖其中, 验证真实业务路径能力,确保各节点性能稳定,为卖家在大促峰值期间提供更可靠的 业务能力输出,今年大促峰值期间各外部系统稳定,和集团内部应用交互顺畅,往年 出现的问题彻底消除。


压测服务

常态化智能压测

常态化智能压测,在非大促态下全链路压测系统化身为智能压测机器人,对全链 路系统进行固定频率的压测,沉淀全链路性能基线,及时发现系统瓶颈和定位原因, 将业务应用瓶颈发现并消灭在平时,下图 6 展示了常态化智能压测流程。

常态化智能压测流程图
智能环境:常态化压测在压测环境(也在生产环境中,有独立的一套和线上系统 相同的配置)中进行,对线上流量无任何影响,操作时可一键将目标应用集群按比例 隔离到压测环境中。

智能模型:压测模型采用大促模型,按照大促要求设计和执行压测策略。

智能施压:按照压测模型和策略和图 3 中的施压流程自动施压。

弹性容量:压测过程中,可根据当前系统表现进行弹性伸缩,确保在达到目标量级时,各系统按照预期性能指标调整到准确的容量。

性能基线 & 智能报告:在达到目标量级后,采集各系统性能指标和容量数据,沉淀性能基线,和以往基线进行对比,快速发现问题,并通过业务埋点监控定位问题可 能出现原因,最终将压测数据、对比结果和问题原因自动录入报告并发送给业务方。

通过以上步骤,可实现无人值守的常态化压测,业务方在收到报告后,自行解决 报告中的问题,下次压测再做验证,将全链路系统中的问题消灭在平时。

结语

在今年智能压测实施下,模型准确率达到 93% 以上,整体效率较去年提升 2 倍 以上,为双 11 全链路压测节省 1000 人次工程师,同时保障了全链路系统稳定性, 使今年双 11 峰值(32.5 万笔交易,25.6 万笔支付)如丝般顺滑。

今年是智能压测实施第一年,后面智能压测还会继续创新和使用更多智能化方 法,让压测更高效更准确,让全链路压测“无人化”更近一步。

相关文章

  • 阿里双十一智能全链路压测

    模型预测:采集往年大促业务数据,制定预测样本,通过预测算法,预测当前大 促峰值模型。压测模型智能划分和计算:将模型...

  • 全链路压测文档汇总

    一文带你了解携程第四代全链路测试系统 全链路压测方案梳理 全链路监控(一):方案概述与比较 微服务:全链路压测和容...

  • 全链路压测相关文章

    全链路压测经验:https://www.jianshu.com/p/27060fd61f72 饿了么全链路压测的探...

  • 全链路压测—双十一

    摘要:阿里巴巴双11备战期间,保障系统稳定性最大的难题在于容量规划,而容量规划最大的难题在于准确评估从用户登录到完...

  • Spring 异步实现原理与实战分享

    最近因为全链路压测项目需要对用户自定义线程池 Bean 进行适配工作,我们知道全链路压测的核心思想是对流量压测进行...

  • 阿里性能测试 - 容量规划

    参考:(5条消息) 阿里巴巴的全链路压测_架构文摘-CSDN博客[https://blog.csdn.net/ux...

  • 学习List

    LearningIndex全链路压测 Redis框架Huskar 多活

  • 独家揭秘 | 阿里怎么做双11全链路压测?

    阿里妹导读:#技术双11系列#全链路压测是阿里的首创,我们将从工作内容、操作过程、运行总结等多个方向来介绍下阿里内...

  • 流量录制,基于常态化压测

    简介 常态化压测、业务压测、集群压测、全链路压测、等基于特定需求的对后台接口进行的并发式请求,接口自动化压测数据的...

  • 全链路压测

    系统架构 核心技术 压测标识透传 镜像表偏移 集群隔离

网友评论

      本文标题:阿里双十一智能全链路压测

      本文链接:https://www.haomeiwen.com/subject/lrojaxtx.html