（通俗易懂）关联规则算法及FP-growth的使用和源码解析

作者: 飞叔Brother | 来源:发表于2018-11-30 13:26 被阅读148次

（通俗易懂）关联规则算法及FP-growth的使用和源码解析
第九章数据关联规则分析算法——基于FP-Growth算法的关联
阿里ARouter拦截器使用及源码解析（二）
路由框架ARouter使用及源码解析（一）
《机器学习实战》笔记（十二）：Ch12 - 使用FP-growt
路由框架ARouter使用及源码解析（二）
第九章数据关联规则分析算法——基于Apriori算法的关联项分
《机器学习实战》读书笔记12
关联规则优化--FP-growth
推荐系统——关联规则（2019-09-22）

原创文章，转载请表明出处

今天将前段时间学的部分知识做一个总结，之前公司有一个业务为同纬度下，挖掘各个项之间有什么潜在的关系。经过一顿思考，我发现这个需求很像一个案例，那就是啤酒和纸尿裤。又经过一顿Google，百度。哦！原来完成这个需求的算法统称关联规则，我们下面就先简单的介绍一下何为关联规则。

关联规则：从大规模数据集中，寻找各个项的隐含关系被称作关联分析或者关联规则学习。

再往通俗易懂了说，就是从大规模数据中，我们去找哪些项总是同时出现，频繁出现。

那频繁的定义是什么呢？怎样才算频繁呢？度量他们的方法有很多种，这里我们来简单介绍一下支持度和置信度，下图是王者荣耀商店每个顾客买的商品公仔（图画的有点糙，哈哈）。

例图1

支持度：数据集中该项集的记录数量所占的比例，例如上图中，{貂蝉公仔}的支持度为4/10,{貂蝉公仔，吕布公仔}的支持度为2/10。

置信度：针对一条如{吕布公仔}-->{貂蝉公仔}这样的关联规则来定义的，这条规则的置信度被定义为：支持度({吕布公仔, 貂蝉公仔})/支持度({吕布公仔})。再通俗易懂的讲就是用户买吕布公仔的前提下，有多大几率买貂蝉公仔。从图中可以看出，支持度({吕布公仔, 貂蝉公仔})=2/10，支持度({吕布公仔})=2/10。所以{吕布公仔}-->{貂蝉公仔}的置信度=2/10/2/10=1。也就是说用户买了吕布公仔，肯定会买貂蝉公仔。

以上就是对关联规则本质上的一个介绍。下面我们再从实现上说一下典型的关联规则算法Aprioir。还是根据上面那张图描述一下Aprioir的逻辑步骤。

1.自己规定一个支持度阈值为：0.2，用来过滤不频繁项集。

2.扫描事物集，寻找1项频繁集并过滤，如下图：

1项频繁集

3，再次扫描事务集，寻找2项频繁集再过滤：如下图：

2项频繁集

4，以此类推，推到没有频繁项集为止。（我们这里上图的数据集也就到2项频繁集就没有了）

5，发现关联规则：以上四步把各个频繁集的支持度都已经得出，置信度上文也提及过了，这样就可以得出关联规则了。

从上述算法步骤中可以看出，Aprior算法每轮迭代都要扫描数据集，因此在数据集很大，数据种类很多的时候，算法效率很低。经过多方了解，我又找到了FP-growth算法。

FP-growth

FP-growth算法不同于Apriori算法生成频繁项集再检查是否频繁，不断扫描事物集。而是使用一种称为频繁模式树（FP-Tree，PF代表频繁模式，Frequent Pattern）菜单紧凑数据结构组织数据，并直接从该结构中提取频繁项集，不需要产生候选集。每个事务被映射到FP-tree的一条路径上，不同的事务会有相同的路径，因此重叠的越多，压缩效果越好。

FP-growth分为两大步，一是构建频繁模式树，二是从频繁模式树中挖掘各个频繁项集。下面从逻辑上说一下。由于上组数据集有点不满足现在这个需求，我们换一组数据集。现有如下数据集：