主题
随着流式时空数据源源不断的产生,如何及时了解不同时间、空间背景下的数据特征、信息成为一个重要的课题。在异常检测和监控方面,在很多情况下,异常与正常模式的界限实际并不明显,且对于流式数据这种动态的、层次化的数据而言,对于异常的定义也不是固定的,与数据特殊的时间空间背景密切相关,对于这种情况,常常需要人为介入,即依靠专家知识或经验来对异常进行判断。本文通过系统Voila
,展示了如何对流式时空数据进行有效的异常检测和监控。
背景
在气象分析、公共卫生、城市规划等领域,流式时空数据不断产生,对流式时空数据分析的实时性、准确性提出了更高的要求。
在异常检测方面,传统主要依靠统计学方法或机器学习方法实现。但在实际应用中,异常检测存在两方面的挑战:
- 异常与正常的界限并不明显
- 有标签的训练集和验证集对于实时的流式数据而言难以获取。
在流式数据的异常检测及可视化中,主要需要解决三个问题:
-
自适应
:流式时空数据一般具有规模大、动态、异构和高维等特点。捕获其中的异常的同时,系统需要针对变化的数据,根据已有的历史数据所积累的知识进行调整、自适应。 -
可解释
:不能只是对异常模式进行简单的展示,还能解释其为何为异常。(简单来说,需要提供一种探索异常模式中关键异常特征的可视化方法) -
可交互
:需要支持在线异探索,支持人工决策。
系统设计
系统针对上述提出的自适应、可解释、可交互三个要求,对系统进行了设计。
-
系统的工作流程
系统处理流程.jpg -
异常检测算法——tensor analysis
- 将输入时空序列数据转化为张量,置于时空-立方体模型中理解
- 根据张量分解计算时空-立方体中每个空间点的可能模式出现的概率
- 与历史数据求出的时空-立方体模型中的对应空间点比较,利用LOF或SVM判断其与常见模式的偏离值,进而确定其异常的概率。
系统实现
-
数据集
纽约市曼哈顿区域出租车行驶数据 -
目标
根据数据对可能发现意外区域进行检测和定位 -
系统视图
系统界面.jpg- 1、 Macro map view
将目标地区用等大矩形划分为若干区域,用颜色表示区域中异常概率、流量大小等信息 - 2、 Macro map view and history view
显示的是历史操作过的区域,用以对比当前聚焦区域与其余区域的关系 - 3、 异常时序图
显示当前聚焦区域异常模式是时序变化图 - 4、 timeline
显示当前聚焦区域不同时刻所有的行为模式,按可能性排序(行),颜色表示异常模式的可能性(相较于历史数据) - 5、 feature inspection view
用MDS投影实现,表示对与同一特征,所有区域在某一时刻该特征的相似性分布 - 6、 ranking panel
异常可能性区域排序 - 7、 snapshot
对历史操作的快照 - 8、 anomaly panel
对异常模式的快照
- 1、 Macro map view
-
异常区域表示法
p表示该区域存在异常的概率,q表示该区域异常发现的难度。p的值用颜色深浅表示,q的值用内部矩形大小表示。
评估
本文的评估针对是系统异常检测的算法,评估方法较为简单,与大多数简单评估方法相似,基于一个有标签的真实数据,通过实验,对系统的有效性进行评估。
评估.jpg- 通过与LOF、SVM方法的对比获得结论:
- 结论一:在相同假阳性率(误判率)下具有较高的真阳性率
- 结论二:在相同召回率的情况下,本方法具有较高的准确率
参考文献
[1] Voila: Visual Anomaly Detection and Monitoring with Streaming Spatiotemporal Data
网友评论