众所周知,银行业的行业监管和处罚非常严格,业务系统非正常停机半小时以上,就需要作为“重大“生产事故上报到行业主管部门。此外,不仅银行业如此,其他行业的核心业务系统也“耽误不起”。
想要帮助 IT 运维人员摆脱“不出故障是应该的,出了问题就难辞其咎”的普遍现象,我们首先要捋清楚 IT 管理工作的现状:
✦ 现有的管理系统缺乏足够的洞察能力,只能提升 IT 系统监控效率,很难从根源上避免故障的发生。
✦ 运维人员的经验和知识能力在多数情况下存在短板,缺少对未知故障的提前洞察与分析能力。
很多传统客户其实很早以前就预见到这一点,所以寄希望于 IT 服务管理流程。但工作过程中又会发现,真正能够落地的流程还只是传统的事故管理和变更管理。如何减少故障发生频率,如何避免因运维人员经验不足而导致的人为失误?这些问题依然没有得到解决。
集合业界最热的智能运维(AIOps)话题,我们或许可以得到一些启发 —— 一个好的 AIOps 平台,应该具备以下几个重要能力:
1全面的数据算法和机器学习能力
能够从数据的变化和趋势中洞察异常的发生,同时能够通过学习不断优化洞察的效率。
图一: 甲骨文智能运维管理服务算法和能力模型
2采用运维管理数据集进行机器训练
通过机器学习,不间断地从一个全域的结构化数据训练集中自主学习和定义针对各类 IT 异常的大数据标签,对故障的发生实现精准预测,实现真正的人工智能。
3统一的一体化管理平台
将零散分布的管理工具和海量信息集中到一个管理平台,更全面地洞察 IT 日志,提升使用体验。
4可以随时获得最新的技术和机器学习成果
基于云计算、基于公有云提供的 MaaS(Management As
A Service)服务,构建真正的 AIOps 管理系统,在网络技术和数据主权方面为企业提供足够的支持和保障,使最终用户无后顾之忧。
Oracle 智能运维解决方案 AIOps — 基于机器学习和人工智能的 IT 运维,可以帮助企业随时随地深入洞察核心交易系统的异常,快速进行故障分析和故障预测。而这一切,可能仅仅只需要一个系统、一台机器就可以完成。
网友评论