2017运维工作盘点
2017运维服务的逐步建立与取得的成果
2017年9月,以对外服务窗口为基础成立现有的运维团队。主要接管对外异常信息的人工收集、分析、分流,为信息中心其他小组争取更多的有效工作时间,为系统的完善提出许多优化建议。
2017运维工作的不足
- 运维服务不够全面,广度、深度都还达不到要求。
- 应急响应机制不够健全,异常处理对个人的依赖性较强。
- 故障恢复处理的方法没有形成可读性较强的资料,并统一管理。
- 极度依赖人工,易遗漏,效率低,出错率高。急需实现高度自动化。
原因分析:
- 资源配备有限:人力资源、知识储备、软硬件支持、团队配合……。
- 团队发展的必经过程。之前主要解决生存问题,之后需要重点考虑发展问题。
2018运维工作计划
目标
整体目标:运维80%的工作能实现自动化处理。
计划
-
服务等级(SLA)
- 客户(谁)
- 服务目录(何事)
- 优先级(轻重缓急)
-
知识管理
知识管理产生更好的IT决策
-
服务台
- 数据收集(统一入口):事件、故障、问题、请求履行。
- 依据服务等级对以上数据进行分流和处理。
- 定期对信息库进行数据分析,输出工作报告、业务报表等。
- 从这些数据中分离出新的需求和系统优化建议。
解决了什么问题:
- 统一信息入口,避免遗漏和重复处理。
- 信息数字化(可进行二次分析的数据才是有效数据)。
- ……
-
IT知识库
(对内)- 在开发或实施一个信息化项目的全周期中,会产生大量的IT 知识。(如:通过SVN管理的Athena项目文档)
- 知识管理标准流程:进行中状态(初始)→草稿状态→审批状态→发布状态→注销状态。
解决了什么问题:
- 加强内部分享,避免重复劳动。
- 避免人事变动对团队造成过大影响。
- ……
-
FAQ自助服务
(对外)自助服务的好处:
- 针对传统操作手册做出的改善。
- 业务在不断拓展,开启自助服务可减轻人工培训的压力。
- ……
-
-
DEVOPS
一级要务:避免系统故障,提升故障恢复速度。
-
自动化监控体系
- 自动监控
- 自动恢复
解决了哪些问题:
1.人工巡检繁琐、枯燥且低效,实现自动监控可以进行自动巡检,遇到特定异常情况可以自动进行恢复处理,还可通过邮件等方式进行即时通知。
2.统一监控平台,实现批量管理,提高效率。
3..…… -
Docker
- 进一步实现服务的容器化管理。
- 内建服务
- 外购服务
- Docker的编排管理,以及实现基于容器的CI/CD。
解决了哪些问题:
- 生产环境、测试环境、线上环境不一致带来的各种问题。
- 服务器的秒级创建。
- ……
- 进一步实现服务的容器化管理。
-
集群
- mysql+mycat
- mongodb
搭建集群的好处:
- 实现弹性负载,减小宕机对系统带来的影响。
- 物理主机增加,减小服务器压力
- ……
-
-
学习任务
- python语言学习
- 其他
另外:
《运维规则》
- 对内:表现为一系列规则的执行标准。
- 对外:表现为大运维体系范围内一切权限的外放标准、以及工作对接的标准。
网友评论