Unsupervised real-time anomaly detection for streaming data
背景:
我们知道现在每天产生大量流式的、具有时间序列性的数据,如何对这些数据进行实时的检测成为一个挑战。流式分析的一个基本功能是以无监督的方式对每个流建模,并实时的检测其中的异常行为。很多application等都要求能够实时的处理数据,以前的批量处理已经无法很好的满足需求。本文提出一个新的异常检测算法,它是基于一个在线序列记忆算法(Hierarchy Temporal Memory/HTM),并使用Numenta Anomaly Benchmark (NAB)呈现结果。
相比于批处理,流式处理的无法得到整个数据集;系统必须以到达的时间序列观察每个数据,对于数据的处理和学习都是一个在线的过程。根据这些需求,以及巨大的流数据量,手动参数调整和人工标记是不可行的,因此无监督的自动化操作是必不可少的。
需要考虑两个方面:1.系统的统计数据会随着时间进行变化,所谓的概念漂移;2.伴随着可能的系统升级等等,需要自动适应新的“正常”的定义。
鉴于上述要求,定义的真实世界中的理想的异常检测算法需要具备的特征:
网友评论