美文网首页
智能运维案例

智能运维案例

作者: reco171 | 来源:发表于2021-07-19 17:12 被阅读0次

智能运维案例如下:

  1. 博客1基于事件和知识图谱技术的智能运维实践方案,提出异常事件分析+推荐解决方案、事件影响度分析、事件根因分析模型,1)通过异常事件分析+推荐解决方案,快速获取专家知识,向运维人员推荐解决方案;2)通过事件模式的关系图分析事件根因和事件影响度。
  2. 博客2基于运维拓扑图构建知识图谱,设计技术方案,提出基于中心度的事件簇分析和根因定位模型,实现网络故障智能诊断探索。
  3. 博客3设计了智能故障诊断方案的总体设计框架,提出了基于故障知识图谱、AI模型两种故障定位模型,故障标注、自动化执行引擎;
  4. 博客4基于CMDB拓扑关系和专家经验构建运维知识图谱,作为底层基础支撑,在此之上,引入成熟的机器学习算法,构建故障定位和故障处置的相关智能运维场景。其中故障定位场景包括业务明细多维定位和调用链根源系统定位,故障处置场景包括智能服务台和运维机器人。
    1)利用历史知识库的方法,构建智能问答系统,把历史上发生故障的处置方案和人工经验转换成知识存储在知识库中,从而当出现类似的情况和问题时,运维人员可以快速通过智能问答系统,从知识库中自动搜索到故障处置的相关手册和建议,大大提升排障效率。2)采用机器学习算法,基于指标的历史数据进行训练,建立智能异常检测模型,进而判断出当前指标数据是否为异常。3)提出通过自动智能的日志模板解析算法从日志中自动提取出不同的模板和变量,进而针对模板所覆盖的日志数量进行智能的异常检测,帮助运维人员实时在海量日志中发现异常日志。
  5. 博客5体系首先是 agent 采集,根据需求可以采集任何我们想要的数据。比如硬件、日志、进程、外网质量等数据,然后按需存到对应的方案中,然后统一集中治理,接着针对固定的时序数据,固定的场景去做 AI 分析,最后如果该场景需要自愈,可以触发命令系统执行自愈动作,最后聚合部分数据,做一个集中的大屏展示。
    数据通过模型最后出来结果,但是这个结果需要不断反馈准确度,才能不断的进化,标注平台就是起的这个作用。针对三个模型的相对于的场景,左边栏会显示模型输出的数据,比如异常模型输出的异常点,右边输出该指标的当前值,运维或者业务等模型使用者,可以选择 Y 或者 N,然后反馈会反推给模型数据库,根据这些反馈,离线模型再不断地更新和训练。

参考:

  1. 基于知识图谱技术的智能运维实践方案.pptx
  2. 基于知识图谱算法的网络故障智能诊断探索
  3. 基于知识图谱和机器学习的智能诊断方案
  4. 光大证券:建设以异常发现与处置建议为核心的智能运维平台
  5. 《AIOps 在 360 的落地实践》分享实录

相关文章

网友评论

      本文标题:智能运维案例

      本文链接:https://www.haomeiwen.com/subject/lgpcmltx.html