项目 | 内容 | 描述 |
---|---|---|
上线目的 | 服务迁移 | 服务从阿里云迁移至华为云 |
上线时间 | 两次上线 | 服务上线: 2019-12-07 00:00-08:00 流量切换: 2020-01-10 00:00-08:00 |
环境设计 | 服务结构 | 调整了服务部署结构,满足了高可用 增加了全领域监控覆盖和告警 调整了资源分配,提高了利用率 数据服务改用RDS、DDS和Redis服务 MongoDB去掉了分片 |
上线准备 | CI/CD流程 | 重新构建了完整的CI/CD流程,以及发版通道。 |
上线准备 | 功能测试 | 在测试环境、类生产环境和新生产环境 均完成了至少一轮功能测试。 |
上线准备 | 性能测试 | 生产环境完成了基础性能测试。 |
上线准备 | 上线计划 | 设计了环境熟悉和重建计划 测试上线计划 线上切流计划。 |
上线准备 | 人员保证 | 三个阶段都完成人员分配 所有人均明晰了各自的职责 最后的流程还配备了后备人员。 |
上线准备 | 过程预演 | 预演了配置层面的切流全过程 |
异常处置 | 切流时异常 | 单场景缓慢 人员希望可以撤离 揪住查看发现是MongoDB查询慢 增加索引解决 |
最终上线结果 | 基本成功 | 有一台服务器的某个ng配置配置错误 导致该请求会转发至错误地址 排查至下午解决 |
暴露问题 | 上线流程把控不够 | 整个过程已经做了所有能做的保障 最后遗留的问题在于问题暴露后没有足够的重视 主责在测试,次责在运维和主管 |
改进策略 | 加强责任教育 增加最后撤离前的灵魂拷问 确保没有问题才能离开 增加nginx转发的可视化验证机制 |
|
总结 | 线上无小事 任何一个问题都不应该轻易放过 尤其是测试和主管人员 |
网友评论