9.2 基于FP-Growth算法的关联性分析
FP-Growth算法同Apriori算法一样,是一种有效的关联分析算法。
相对于Apriori算法的优势:它只需要对交易数据表进行两次扫描,通过构建FP-树对原始数据进行压缩,从而提升数据分析性能。
9.2.1 构建FP树
FP树也称作频繁模式树,FP树可以理解为一种扩展的前缀树,因为它不仅包含一颗前缀树,还包括一个频繁项头表,它有效地加快了关联数据的分析。
构建FP树需要的步骤:
1、扫描数据集表,分析数据中的频繁项及每个频繁项支持度,并根据每个频繁项的支持度进行降序排列。
2、创建FP树的根节点,根节点设置为“null”,对于数据表的每条记录选择其中的频繁项,并按照支持度的大小进行降序排列。
3、对数据表每条记录的频繁项集构建频繁项头表及前缀树。
9.2.2 频繁项分析
分析步骤:
1、从Header Table中进行分析,构造属于每个Item的条件模式基。针对每个Item的条件模式基,依照Header Table中的Item从下至上的顺序,获得Item的链表,并获得以该Item的前缀路径,即该item所在路径的前序路径。这些前缀即为该Item的条件模式基。
2、将获得的所有Item的条件模式基的频率进行统计,该频率即为该Item的频繁度。
网友评论