购物篮分析（3）——利用Knime和Python实现

作者: 扫地sir | 来源:发表于2023-06-11 11:52 被阅读0次

关联规则（二）
举个栗子！Tableau 技巧（153）：用突出显示表购物篮分析
（九）Python 图形绘制
Python 极简关联分析（购物篮分析）
利用Python进行分析-Chapter 3
举个栗子！Tableau 技巧（114）：实现购物篮分析 Mar
49-R语言机器学习：购物篮分析、推荐引擎与序列分析
机器学习书籍
购物篮分析算法与实践
2018年入职前学习计划

上一篇文章中，我们使用Tableau Prep完成了关联分析，也就是购物篮分析。这篇文章我们首先使用Knime来完成关联分析。

KNIME是一个免费的开源软件，用于创建数据科学应用程序和服务。它直观，开放，不断整合新的开发，使人们可以理解数据，设计数据科学工作流程和可重用组件。类似的商用软件还有Alteryx和Rapidminer。

如下图所示，使用Knime完成关联规则的分析，主要分三步：

第一步，使用Excel Reader节点读入数据，此数据与上一篇文章中使用的数据一致。

第二步，使用GroupBy节点对数据进行分组聚合，聚合结果是List列表形式（如下图所示）。聚合为List列表形式并不常见，尤其是在Tableau中并没有这种聚合方式。

聚合结果如下图所示，每笔订单已经被聚合为一行数据，聚合后的商品以List列表形式存在。

第三步，使用使用数据挖掘算法中的Association Rule Learner或者Association Rule Learner(Borgelt)节点都可以完成算法的构建。

以Association Rule Learner节点为例，首选要在节点设置页中选择要计算的列，这里是“List(商品名称)”一列，最关键的是要提前定义好支持度的阈值，也就是剪枝的标准。其他选项大家可以自行尝试，包括计算的方法，商品组合的最大长度、最小置信度等。

我设置之后，输出的结果就是支持度大于0.25，置信度大于0.8的商品组合。其实有两种商品的组合，也有三种商品的组合，比手工Join联接计算要简便的多。Association Rule Learner(Borgelt)节点与Association Rule Learner节点大同小异，但输出的指标要更丰富一点，大家可以自行尝试。

下面我们再用Python来完成算法的构建。

from mlxtend.preprocessing import TransactionEncoder
from mlxtend.frequent_patterns import apriori, association_rules
import pandas as pd

# 定义数据集
dataset = [
    [1, '黄油'],
    [1, '鸡蛋'],
    [1, '面包'],
    [1, '牛奶'],
    [2, '黄油'],
    [2, '水果'],
    [3, '鸡蛋'],
    [3, '面包'],
    [3, '牛奶'],
    [4, '黄油'],
    [4, '鸡蛋'],
    [4, '面包'],
    [4, '牛奶'],
    [5, '牛奶'],
    [5, '水果'],
    [5, '芝士'],
    [6, '黄油'],
    [6, '黄油'],
    [6, '鸡蛋'],
    [6, '牛奶'],
    [7, '水果'],
    [7, '芝士'],
    [8, '面膜']
]

# 将数据集按订单ID进行分组（类似于Knime中的groupby节点，制作商品list）
transactions = {}
for item in dataset:
    order_id, product = item
    if order_id in transactions:
        transactions[order_id].append(product)
    else:
        transactions[order_id] = [product]

# 转换数据集格式
te = TransactionEncoder()
te_ary = te.fit_transform(transactions.values())
df = pd.DataFrame(te_ary, columns=te.columns_)

# 使用Apriori算法计算频繁项集
frequent_itemsets = apriori(df, min_support=0.25, use_colnames=True)

# 根据频繁项集计算关联规则
rules = association_rules(frequent_itemsets, metric='confidence', min_threshold=0.8)

利用mlxtend库的apriori和association_rules算法，首先要对数据进行预处理，改成独热编码（One-Hot Encoding）的形式。

如下图所示，我们输出的df已经被改成了One-Hot Encoding形式：