最近在关注的微众银行的一些AIOPS实践
URL:
https://www.jianshu.com/p/b0d93b514c50
https://www.jianshu.com/c/6eb4128a5dcd
进化线路:
先异常识别,然后根因定位。进而到容量和事件预测。
(1) 机器学习算法落地场景首推异常指标识别。因为工程化成本低,较容易产生效果。一两个核心开发人员即可。而且一旦成功,运维人员能获得最直接的收益。
(2) 从异常指标出发,衍生到异常追溯原因的各类场景。当识别出了异常,自然希望得到答案。例如以上案例所示美团和微众银行都在根因定位上有所突破,同时都使用到了交易链路,所不同的是,美团是依靠人工管理标注完成,而微众银行使用了算法结合消息总线的日志自动产生。所以,从纯粹数据层面的机器学习逐渐过渡到逻辑层面的机器学习。
(3) 算法结合规则才能达到实际生产运维期望的效果。算法不能解决所有问题。如果要更好的解决实际运维场景的问题,算法结合规则或专家经验才是宝贵的AIOps落地经验。
(4) 标准化、数据仓库式的运维数据是基础,大量运维格式化基础数据是机器学习的先决条件。所以,从组织架构到运维工具都应尽量做到集中化管理。
(5) 类似容量预测或事件预测等类似预测类的场景将是AIOps的下一个探索方向,主动发现与预测将是IT运维未来需要解决的问题。IT技术架构从“IOE架构”逐步走向了“互联网架构”;运维体系从ITIL走向DevOps;运维平台从自动化走向了AIOps;运维核心从关注平台走向数据资产。智能化以及数据化是未来IT运维的总体趋势,互联网业务的连续性保障的方方面面都将在这次IT运维变更中发生巨大变化。AIOps也会在更多运维场景中发挥不可替代的作用。
网友评论