美文网首页
运维,我怎样才能做的更好

运维,我怎样才能做的更好

作者: 刘小白DOER | 来源:发表于2022-01-01 22:41 被阅读0次

    最近都在沉淀。手头没有事情时,就读读技术类书籍,如果时间再充裕,学习一项技能,获得资质认证。这段时间年底有些琐事,2022准备all in Machine Learning,来研究应对数据中心智能化的一些挑战。

    工作快10年了。现在才发现,同样是做一件事情,平台不同,结果也不一样,效益更不一样。这个平台可以是不同公司、不同部门、不同团队。在这几年的运维中,笔者感触尤为明显。在组织中,有大把人以平台的成绩沾沾自喜,笔者觉得那是错把平台当本事,看不清自己,自信过头了。最近在断断续续阅读google SRE的书籍,这是一本看的最有启发的一本书,在阅读时会不自觉的联系工作实际情况来对比,引发共鸣。

    在运维生命周期中,分为7个方面,产品设计、软件开发、容量规划、测试与发布、事后总结/问题分析、应急事件处理、监控,这个七个方面从上到下组成服务可靠度层级模型。金字塔模型从最低级的能够正常对外服务,到被动救火和应急,再到最高级的主动控制服务状态,阐述了服务可靠性的基本和高级需求。

服务可靠度层级模型-运维金字塔

1、监控。

    监控系统帮助我们识别服务是不是在正常工作,可以在用户发现问题前发现系统中存在的问题。监控工作在运维生命周期中处于最低链中,占用时间多,但价值含量低。

2、应急事件处理

    发现系统中存在的问题,不一定是要把问题一次性修复好,而是利用备用手段、关闭非必要功能等系统降级方法等方法来应对应急事件,保障业务正常后,才开始一步步解决故障问题。在应急事件中,由于压力大急于解决问题,会绕开必要的流程,在这个过程中往往会出现人为错误。应急事件的处理可以通过有效应急手册和周期的应急演练来保障和强化。

3、事后总结和问题分析

    任何一个事故发生后,团队应该写一份“对事不对人”事后总结,系统性、逻辑性的讨论事故过程。从每个错误中学习,建立更好的预防措施,将系统变得更加可靠。在运维中,我们不能“修好”某个人,但是可以通过改善系统和流程从而更好的协助他在设计和维护系统时,做出更多的正确选择。

4、测试与发布

    测试是提高可靠性投入回报比最高的一种手段。完善的测试可以提供足够的细节信息,帮助我们有效的预测系统未来的可靠度。通过增加测试,可以保证发布岛到生产系统中不会出现某些类型的问题。测试包括单元测试、集成测试、系统测试。

5、容量规划

    收集对项目需求的预测,制订资源采购、构建和分配计划。

6、软件开发

    在运维生命周期中,开发服务于软件的软件,支撑业务系统的可靠运行。有足够的技术能力,设计和构建自动化工具来取代人工手动操作,改进所维护的服务,使其变得更稳定和更易于维护。

7、产品设计

    审核产品和服务,确保符合可靠性标准和最佳实践,提供具体的建议来提高可靠性,是服务或者系统发布的第一道守门人。此阶段是金字塔的最高阶段,反作用于系统的构建和运行,使得系统具有可靠性、天然的可维护性。

    这个模型可以回答你的一个问题,也是一线运维人员也经常疑惑的问题:为什么我工作时间最长,工资还是最低呢?有了这个模型,在运维中就应该往上走,多参与一些高级需求,才能做的更好。

   

   

相关文章

  • 运维,我怎样才能做的更好

    最近都在沉淀。手头没有事情时,就读读技术类书籍,如果时间再充裕,学习一项技能,获得资质认证。这段时间年底有些琐...

  • 2018-05-28

    1.1 学习之初 定位: 给自己运维工作提供更好的能力,做优秀的运维人员 1.2 约定 学习:争取每天按照进度学习...

  • Linux企业运维高效技巧心得及分享

    随着Linux在企业中的不断飞速的应用,为了企业中更好的运维,熟悉日常运维的技巧能更好的满足企业的发展,同时让我们...

  • 【Linux入门第1天】我为什么要学习Linux

    我来自河北 我怎么知道Linux的:最初是做业务运维,后来慢慢转到做liunx运维 参与本次Linux训练营想要得...

  • 运维现状

    一.运维现状 运维能力差做网管的比较多能力偏低做完网管的工作就滚去打杂咸鱼了 初级运维爱吐槽我看很多刚入职场的运维...

  • 内推_百度_软件研发

    运维部一面 实验室老师把我的简历直接发给了运维部同事,第二天就有了电话预约面试。相比于运维,我当然更倾向于做开发,...

  • Redis的读书笔记 第一章:初识Redis

    Redis的读书笔记系列的书是《Redis开发与运维》,这本书站在开发及运维的角度介绍Redis。为了更好学习Re...

  • pika_to_redis数据迁移工具设计与实现过程

    背景 为满足运维人员对于pika可以更好地运维,需要方便地将数据从pika迁移到redis,在pika系统中之前已...

  • 日志、告警、监控的关系

    一大早运维小白就跑到运维老鸟,一脸疑惑 小白:“师傅,我做运维也有一段时间了,最近有些疑惑,请问问您” 老鸟:“咋...

  • 『Ansible + Reclass 更好的运维』

    大家好,我叫谢伟,是一名程序员。 本节的主题:Ansible + Reclass 如果你持续关注过我,应该知道我的...

网友评论

      本文标题:运维,我怎样才能做的更好

      本文链接:https://www.haomeiwen.com/subject/bnfwqrtx.html