![](https://img.haomeiwen.com/i14857074/045aed4390a1340e.png)
先来放一下原文的链接:https://blog.csdn.net/tjyok/article/details/80502750
Python数据科学中,常用scikit来学习一个现成的算法,然而,scikit-learn不支持这种关联分析的算法。Sebastian Raschka 提供了非常有用的具有Apriori算法的MLxtend库的,可以帮助我们进一步分析所掌握的数据。接下来我将演示一个使用此库来分析相对较大的在线零售数据集的示例,并尝试查找有趣的购买组合。在本文结尾处,我希望你能掌握将其应用于你自己的数据集的基本方法。
为什么是关联分析?
许多复杂的数据分析方法(聚类,回归,神经网络,随机森林,SVM等)面临许多挑战:可能难以调整,并需要相当多的数据准备和特征工程才能获得好的结果。
关联分析对数学知识的掌握要求非常低,而且结果易于向非技术人员解释。此外,它是一种无监督的学习工具,可以查找隐藏的模式,因此对数据准备和特征工程的需求有限。对于某些数据探索案例来说,这是一个很好的开始,并且可以发现使用其他方法深入了解数据的方式。
另外一个额外的好处,MLxtend库中的python实现对于非常熟悉scikit-learn 和pandas应该是非常简单的。由于所有这些原因,我认为这是一个有用的工具来帮助你解决数据分析实际问题。
关联分析101
理解关联分析中常用使用的几个术语很重要。在介绍数据挖掘是为那些有兴趣了解这些定义和算法实现的人,让他们对关联分析的数学方法有一个基本的概念。
关联规则通常如下:{Diapers} - > {Beer},这意味着在同一交易中购买尿布的客户之间和购买啤酒之间存在很强的关系。
在上面的例子中,{Diaper}是前提,{Beer}是后果。前提和后果可以包含很多内容,换句话说,就是类似{Diaper,Gum} - > {Beer,Chips}也是一个有效的关联规则。
信心是对关联规则可靠性的度量。上述例子中有0.5的信心意味着在购买了Diaper和Gum的情况下,有50%的可能去购买Beer和Chips。对于产品推荐,50%的置信度可能是完全可以接受的,但在医疗情况下,此级别可能不够高。
如果两个规则是独立的,Lift是观察到的支持与预期的支持的比率(lift解释详见维基百科)。基本的经验法则是Lift接近1表示规则完全独立。Lift> 1通常更“有趣”,可以表示这是有用的规则模式。
最后一个注意事项,与数据有关。此分析要求将交易的所有数据包含在1行中,并且编码方式应为one-hot编码(了解one-Hot编码)。了解MLxtend 的文档对了解如何运用是非常有用:
本文的具体数据来自UCI机器学习存储库,数据代表了2010-2011年英国零售商的交易数据。这主要代表的是批发商的销售数据,所以它与消费者购买模式略有不同,但仍然是一个有用的案例研究。
代码讲解
可以使用pip安装MLxtend,只有安装了MLxtend下面的代码才能真正运行。一旦安装完毕,下面的代码将会开始工作。我已经将源代码上传至Github,以方便你的下载。
获取我们的Pandas和MLxtend代码导入并读取数据:
![](https://img.haomeiwen.com/i14857074/c8c15a05778dcbd8.png)
我们需要做一点数据处理。首先,一些数据描述中具有需要删除的空格。我们还会删除没有发票编号的行,并删除信用交易(发票编号包含C)。
![](https://img.haomeiwen.com/i14857074/c54e40137da932ef.png)
数据清理完成后,我们需要将每个产品进行one-hot编码。为了保持数据集小,我选择只是看法国的销售记录。然而,在下面的其他代码中,我将这些结果与德国的销售进行比较。进一步的国家比较将会是有趣的调查。
![](https://img.haomeiwen.com/i14857074/b1139925497f0dcb.png)
以下是前几列的样子(注意,我在列中添加了一些数字来说明这个概念,这个例子中的实际数据全是0).
数据中有很多零,但是我们还需要确保将任何正则转换为1,而将0设置为0。此步骤将完成数据的one-hot编码,并删除邮资列:
![](https://img.haomeiwen.com/i14857074/d042f47639d131d9.png)
既然数据的结构是正确,我们可以生成支持至少7%的频繁项目集(选择这个数字,可以帮助我得到更多有用的例子。)
![](https://img.haomeiwen.com/i14857074/33e75a7262604360.png)
最后一步是产生相应的信心和提升的规则:
![](https://img.haomeiwen.com/i14857074/6dde3f463fcf09df.png)
这就是这个项目的一切!
现在,最棘手的部分是弄清楚我们得到的这些结论告诉我们什么了。可能绝大多数程序猿不太关注。例如,我们可以发现很多关联规则具有很高的提升价值,这意味着它的发生频率可能会高于交易和产品组合数量的预期值。这部分分析是行业知识将派上用场的地方。由于我没有,所以我只是想找几个说明性的例子。
我们可以使用标准的pandas code来过滤数据帧。在这种情况下,寻找一个lift(6)和高信度(.8):
![](https://img.haomeiwen.com/i14857074/0cafbe865023e8f5.png)
在查看规则时,可以发现似乎绿色和红色闹钟是一起购买的,红纸杯,餐巾纸和纸板是以总体概率提高的方式一起购买的。
您可能想要看看有多大的机会可以使用一种产品的受欢迎程度来推动另一种产品的销售。例如,我们可以看到,我们销售340个绿色闹钟,但只有316个红色闹钟,所以也许我们可以通过科学的方法来推动更多的红色闹钟销售。
![](https://img.haomeiwen.com/i14857074/1cebba90daf2bc70.png)
我们来看看德国有什么流行的组合呢?
![](https://img.haomeiwen.com/i14857074/6844b2d9120a7715.png)
![](https://img.haomeiwen.com/i14857074/2e2719770f44566c.png)
网友评论