论文名称:
Clustering Event Logs Using Iterative Partitioning
3.1 IPLoM算法
IPLoM算法是一种日志数据聚类算法。它通过迭代地划分一组日志消息来工作,这些日志消息用作训练范例。在分区过程的每个步骤中,生成的分区更接近于只包含日志消息,这些消息是用相同的行格式生成的。在分区过程结束时,算法尝试发现在每个分区中生成行的格式,这些发现的分区和行格式是算法的输出。
IPLoM算法包含四个步骤:3.2-3.5
该算法旨在发现日志消息初始集中的所有可能的行格式。由于有时需要只查找支持超过某个阈值的行格式,因此将文件修剪函数合并到算法中。文件修剪函数的工作原理是在每个分区步骤结束时删除低于文件支持阈值的所有分区。这样,我们就能够在算法结束时仅生成满足所需文件支持阈值的行格式。在没有文件支持阈值的情况下运行IPLoM是它的默认状态。
3.2 Step 1:按token的数量划分
分区过程的第一步是假设具有相同的行格式的日志消息可能具有相同的标记(token)长度。因此,IPLoM的第一步使用标记计数启发式来划分日志消息。在剩下的步骤中使用额外的启发式标准对初始分区进行进一步划分。考虑集群描述“Connection from *”,它包含3个标记。可以直观地推断,该集群的所有实例,例如“Connection from 255.255.255.255”和“Connection from 0.0.0.0”,也会包含相同数量的标记。通过先按标记计数对数据进行分区,我们利用了大多数集群实例具有相同标记长度的特性,因此此启发式的结果分区可能包含具有相同标记计数的不同集群的实例。
网友评论