美文网首页
学习阿里云DNS统一运维平台的建设

学习阿里云DNS统一运维平台的建设

作者: robot_test_boy | 来源:发表于2022-05-29 00:05 被阅读0次
    背景

    阿里云部署了243个DNS集群,日解析量超过2万亿次。为了保障上层服务满足稳定性的目标,DNS系统作为底层基础设施的重要部分,必须满足更高的稳定性要求。在解析服务方面除了高可用的架构设计和部署外,还要对服务异常实现秒级定位和恢复,需要建设统一运维平台

    平台建设

    阿里云DNS运维平台的建设历程,可以分为三个阶段:标准化建设阶段、自动化建设阶段、智能化建设阶段。三个阶段并非完全的先后顺序,而是交织在一起,不断推动整个平台的持续演进。

    运维系统标准化建设阶段,主要聚焦于资产数据管理,服务管理与基线管理标准化三部分,目的是解决线上数据不一致,配置不一致和服务管理流程分散的问题。

    自动化流程建设阶段,吸取了很多内部系统建设的经验,集成了SOP(Standard operating procedure)管理、自动化任务编排及流程管理等功能。 通过定义标准SOP,将日常处理流程收敛到运维平台集中管理,小到一个服务的重启流程,大到一个机房的部署流程,都囊括其中。对于可自动化流程,通过“集成任务编排和流程执行模块”实现任务的批量执行,降低人为操作带来的变更风险,同时还能和标准化建设阶段实现的基线管理系统联动,实现变更的异常检查和上报。自动化建设提供的框架能力,还集成了任务审批和日志审计功能,可实现任务流程管理的安全可控

    运维平台正处于从自动化向智能化转型阶段,服务的稳定性不再局限于运维操作的自动化,而是通过集成一系列输入,实现线上风险预判和自动处置。这也是为了解决稳定性1-5-10和满足云用户服务稳定性的要求。如果一个故障需要人工接入,那么从告警产生到接收再到实际处置,一般需要5分钟甚至更长时间,因此智能运维是当前发展阶段必须落地的一个手段。在建设阶段,我们深刻感受到:智能运维是一场服务稳定性与安全性之间的博弈,如果无法保证智能运维的准确性,那将带来更大的风险(2021年10月某社交网站的大范围离线故障,就是自动化操作所导致的服务故障)。

    总结

    学习了一个运维平台的建设思路:标准化到自动化再到智能化。本篇打动我的是这个操作:将日常处理流程收敛到运维平台集中管理,小到一个服务的重启流程,大到一个机房的部署流程,都囊括其中。做运维,分析定位问题时,需要知道环境做过什么,混沌工程领域叫系统的监控能力。

    相关文章

      网友评论

          本文标题:学习阿里云DNS统一运维平台的建设

          本文链接:https://www.haomeiwen.com/subject/weonurtx.html