美文网首页
流式时空数据异常检测的可视化实现

流式时空数据异常检测的可视化实现

作者: s初 | 来源:发表于2017-10-29 13:18 被阅读0次

主题

随着流式时空数据源源不断的产生,如何及时了解不同时间、空间背景下的数据特征、信息成为一个重要的课题。在异常检测和监控方面,在很多情况下,异常与正常模式的界限实际并不明显,且对于流式数据这种动态的、层次化的数据而言,对于异常的定义也不是固定的,与数据特殊的时间空间背景密切相关,对于这种情况,常常需要人为介入,即依靠专家知识或经验来对异常进行判断。本文通过系统Voila,展示了如何对流式时空数据进行有效的异常检测和监控。

背景

在气象分析、公共卫生、城市规划等领域,流式时空数据不断产生,对流式时空数据分析的实时性、准确性提出了更高的要求。

在异常检测方面,传统主要依靠统计学方法或机器学习方法实现。但在实际应用中,异常检测存在两方面的挑战:

  • 异常与正常的界限并不明显
  • 有标签的训练集和验证集对于实时的流式数据而言难以获取。

在流式数据的异常检测及可视化中,主要需要解决三个问题:

  • 自适应:流式时空数据一般具有规模大、动态、异构和高维等特点。捕获其中的异常的同时,系统需要针对变化的数据,根据已有的历史数据所积累的知识进行调整、自适应。
  • 可解释:不能只是对异常模式进行简单的展示,还能解释其为何为异常。(简单来说,需要提供一种探索异常模式中关键异常特征的可视化方法)
  • 可交互:需要支持在线异探索,支持人工决策。

系统设计

系统针对上述提出的自适应、可解释、可交互三个要求,对系统进行了设计。

  • 系统的工作流程


    系统处理流程.jpg
  • 异常检测算法——tensor analysis

    • 将输入时空序列数据转化为张量,置于时空-立方体模型中理解
    • 根据张量分解计算时空-立方体中每个空间点的可能模式出现的概率
    • 与历史数据求出的时空-立方体模型中的对应空间点比较,利用LOF或SVM判断其与常见模式的偏离值,进而确定其异常的概率。
异常检测流程.jpg

系统实现

  • 数据集
    纽约市曼哈顿区域出租车行驶数据

  • 目标
    根据数据对可能发现意外区域进行检测和定位

  • 系统视图


    系统界面.jpg
    • 1、 Macro map view
      将目标地区用等大矩形划分为若干区域,用颜色表示区域中异常概率、流量大小等信息
    • 2、 Macro map view and history view
      显示的是历史操作过的区域,用以对比当前聚焦区域与其余区域的关系
    • 3、 异常时序图
      显示当前聚焦区域异常模式是时序变化图
    • 4、 timeline
      显示当前聚焦区域不同时刻所有的行为模式,按可能性排序(行),颜色表示异常模式的可能性(相较于历史数据)
    • 5、 feature inspection view
      用MDS投影实现,表示对与同一特征,所有区域在某一时刻该特征的相似性分布
    • 6、 ranking panel
      异常可能性区域排序
    • 7、 snapshot
      对历史操作的快照
    • 8、 anomaly panel
      对异常模式的快照
  • 异常区域表示法

异常图例.jpg

p表示该区域存在异常的概率,q表示该区域异常发现的难度。p的值用颜色深浅表示,q的值用内部矩形大小表示。

评估

本文的评估针对是系统异常检测的算法,评估方法较为简单,与大多数简单评估方法相似,基于一个有标签的真实数据,通过实验,对系统的有效性进行评估。

评估.jpg
  • 通过与LOF、SVM方法的对比获得结论:
    • 结论一:在相同假阳性率(误判率)下具有较高的真阳性率
    • 结论二:在相同召回率的情况下,本方法具有较高的准确率

参考文献

[1] Voila: Visual Anomaly Detection and Monitoring with Streaming Spatiotemporal Data

相关文章

  • 流式时空数据异常检测的可视化实现

    主题 随着流式时空数据源源不断的产生,如何及时了解不同时间、空间背景下的数据特征、信息成为一个重要的课题。在异常检...

  • 【算法】异常检测

    异常检测 异常检测(Anomaly Detection):异常检测就是从数据集中检测出异常样本,是一种无监督学习。...

  • 异常检测算法速览(Python代码)

    一、异常检测简介 异常检测是通过数据挖掘方法发现与数据集分布不一致的异常数据,也被称为离群点、异常值检测等等。 1...

  • 2019-11-20 IOS原生地图开发(1)——Mapkit基

    近期做时空数据可视化作业时,老师要求阅读论文或者实现项目,在谷歌学术上找到类似一篇文章实现了一个分布式的时空数...

  • 编程作业(八)

    异常检测与推荐系统 异常检测 在本节练习中,你将实现一个异常检测算法用于检测服务器上的异常行为。特征变量为每台服务...

  • R语言:plotExprHeatmap绘制表达热图

    导读 CATALYST流式细胞数据分析工具包,plotExprHeatmap函数能进行怎样的可视化。 plotEx...

  • 孤立森林(Isolation Forest)从原理到实践

    异常检测 离群点是在给定数据集中,与其他数据点显著不同的数据点。异常检测是找出数据中离群点(和大多数数据点显著不同...

  • 异常检测

    异常检测工具包识别出不同于输入数据集其他部分的数据点,每个数据点向异常检测模型传递一个异常值(从0到无穷)一描述这...

  • 异常检测算法

    梳理 | 异常检测2.携程实时智能异常检测平台的算法及工程实现 异常检测的N种方法,阿里工程师都盘出来了 八大无监...

  • 读《现场改善》第八章可视化管理

    问题的可视化 现场的问题需要可视化,否则就不能“检测”出异常情况,也就无法管理好整个流程了。 可视化管理的第一原则...

网友评论

      本文标题:流式时空数据异常检测的可视化实现

      本文链接:https://www.haomeiwen.com/subject/gcgepxtx.html