AWS云上混沌工程实践之对照实验设计和实施主要讲述了亚马逊混沌工程的实践经验的分享。将疫苗预防和混沌工程做类比,紧接着讲述混沌工程的实验目标,混沌工程实验成熟度等级和混沌工程实验接纳指数,观测指标的设计,故障注入场景的设计,实验工具的选择,最小爆炸半径的案例分析。
从1到100:混沌工程实践的可视化与平台化主要讲述了混沌工程的时机和机遇:随着敏捷开发,devops,云原生架构和治理,引入混沌工程提前发现问题和解决问题;实施混沌工程的实验场景:从1个增加到100个。遇到的新挑战:实验场景如何管理。模板化啊,可以看到借鉴的模板。解决新挑战:混沌工程实验数量级增长,平台化啊,Goblin有故障注入服务,业务指标观测服务,流量生成服务,护栏服务,暂停服务,流水线服务和权限服务等;实施混沌工程的业务应用数量:从1个增加到100个。新挑战:混沌工程效果评估的复杂性,混沌工程成熟度评估模型和自动化式可视化;实施混沌工程的人员数量:从1个增加到100个,新挑战:混沌工程技能和人员培训,用混沌工程的游戏日计划(game day)。
AWS云上混沌工程实践之对照实验设计和实施,来自黄帅-2019
从1到100:混沌工程实践的可视化与平台化 黄帅
混沌工程的时机和机遇(敏捷开发,devops,和云原生架构和治理,引入混沌工程提前发现问题和解决问题)
实施混沌工程的实验场景:从1个增加到100个
实施混沌工程的业务应用数量:从1个增加到100个
韧性(Resilience)是指软件通过适度降级和快速恢复而在遇到故障 时保持可用性的能力。
• 只能通过在遇到故障情况时分析应用程序的行为来衡量软件的韧性。
• 混沌工程实验用于验证是否已使用预防故障的最佳实践以及软件行为 是否已达到韧性目标。
• 韧性分数是一种报告机制,用于衡量服务对故障的韧性。
实施混沌工程的人员数量:从1个增加到100个
新挑战:混沌工程技能和人员培训
混沌工程的游戏日计划(game day)
混沌工程的“游戏日计划”是一个基于团队的交互式和开放式的学习与练习。旨在测试系统中模拟各种事件响应的流程,比如故障发生、被侵入、扩展要求 等等。目的是训练团队的响应能力以及建立如何应对的“肌肉记忆 ”。
网友评论