运维平台信用分——滴滴内部的数据驱动实践

作者: 滴滴技术 | 来源:发表于2019-03-06 20:03 被阅读0次

运维平台信用分——滴滴内部的数据驱动实践
教你制作最强运维监控大屏
数据中心如何高效做运维？
运维开发工程师
运维=平台+数据
魅族大数据运维平台实践
魅族大数据运维平台实践
魅族大数据运维平台实践
胡海洋：Hive Metastore Federation 在滴
Gartner：AIOps「智能运维」真的来了，并且是趋势

在大家的印象中，运维人员更多的是从属业务的角色。在传统的企业IT中，没有快速的产品迭代，没有每天成百上千次的服务发布和伸缩容，这样的角色看似没有问题。但在如今的 DevOps 时代，日常的运维工作中每天要应对成百上千次的服务发布与线上操作。如果运维人员（即SRE）仍然只是被动的去应对这种变化，所造成的结果，必然是疲于应付，最终会对全平台的业务稳定性造成很大隐患。

那么，在这种量变引起质变的挑战中，运维人员应该发挥怎样的作用，才能适应新业务的挑战呢？笔者之前曾就职于IBM Cloud部门，现在就职于滴滴运维部，长期从事自动化运维方面的工作，下面就结合自己之前的经验和目前的工作，谈谈自己的一些见解。

一. 来自业务的挑战

无论是在滴滴还是在之前的部门，在业务发展的初期阶段，都不可避免的经历了粗犷型的扩张阶段，比如业务量指数级上升，用户量急剧增加，每时每刻都有服务模块的迭代。

在业务优先的前提下，运维人员承担着巨大的运维压力。以监控为例，用户添加监控不规范，会造成报警频发，报警有效性不足，导致的后果就是容易让真正有价值的报警湮没在海量数据中，同时，也会造成对报警资源的浪费，比如，研发同学不区分测试、线上环境，随意的添加报警采集指标，会对监控系统的存储，查询带来极大的挑战。再比如部署系统，不按照规范，在高峰期更新服务，一旦出问题，会造成整个应用的服务不可用。这样的例子有很多。

二. 如何应对

如果上述的问题一直延续下去，运维工作必然带来巨大的挑战，并且会严重影响线上服务的稳定性。面对这些问题，滴滴运维团队的同学也在一起思考，运维应该不仅仅去被动的适应业务，而是要从平台稳定性出发，去指导研发同学，如何规范的执行变更，如何合理的使用监控资源以及其它公司IT基础设施。

我们想到的解决方法就是“数据说话”，尽可能的去量化监控、部署及基础组件（MySQL, Codis, ZK）的使用。然后用数字去指导研发的同学，尽可能的去匹配我们给出的“最佳实践”，从而减少造成线上业务不稳定的隐患。

所以，滴滴运维部推出了“风险量化平台”，包含“变更信用分”（用来度量服务的变更操作，比如服务部署上线，配置变更等）、“监控健康分”（用来度量用户对报警监控的使用），从而打造一个“看得见的手”，驱动业务同学来一起提高线上稳定性。

| 数据驱动的难点有三个方面

首先是如何获取数据？这是“风险量化平台”的基础。使用监控系统，部署一个服务，执行一次配置变更，都是一个个用户操作，很难用数字去表达。为此我们结合运维经验，基于对操作每个步骤的详尽输出，近可能的去用数字维度来衡量用户操作。比如以部署为例，会以灰度发布中间的暂停时间是否满足一定时长，是否有在上线高峰期操作记录，部署过程中是否执行了double-check，在哪个阶段执行了回滚等等，来形成一个个的打分项。

其次是如何去制定风险量化的标准，也就是如何用各个指标去构造一个最佳实践。这更像是一个数学建模，里面涉及到大量的运维经验积累，以我们新推出的监控健康分为例，我们遵循着“有服务必有监控，有报警必须处理”的原则，对于每个服务，要求衡量的标准包括，是否有存活指标监控（进程、端口等）；是否有基础指标监控（如cpu.idle，mem.used, disk.used）；是否添加了上下游监控，报警是否有效，即报警接收人是否过多（因为大家都收到报警，最终的结果，往往意味着大家都不会处理报警），报警是否被及时处理（运维领域也有MTTA， MTTR，即报警平均响应时间，和报警及时处理时间这样的概念）；是否配置了监控大盘，方便我们日常巡检。

各个量化项目占据不同的权重（如下方的监控健康分剖析图），比如我们根据滴滴目前的服务特点，存活指标占比40%，报警有效性占比30%，推动业务去收敛报警，和完善监控。监控健康分以80分为及格线，寻找出监控漏洞，并指导用户加以改进。用这样的方法，可以让研发同学尽可能的减少漏配监控的事情发生，提高线上服务的稳定性。

最后的难点是如何驱动？这是我们现在着力想的一个点。风险量化实际上就是总结前人踩过的坑，趟过的雷，去告诉后面的同学，提前来规避风险，这是运维部门对公司业务稳定性的一大贡献。

现在已有的做法是如下图（各部门变更信用分排名图）所示，通过计算、打分、全公司各个业务线排名，将风险量化数据和反应出的问题推送给各个业务线的leader。以竞赛方式去推动各个业务线重视风险量化。我们还计划以监控健康分去驱动报警有效性的建设，完善报警值班制度，避免群发报警又无人处理，报警配置不合理这种现象的发生。